分布式训练在线教程 | 多卡多机协同

最新

学习 PyTorch FSDP 的原理与用法，在数据并行中分片模型参数、梯度和优化器状态，并支持多种分片策略以平衡内存与通信。

人工智能 FSDP 分布式训练 PyTorch

6 0 0

2026-06-14

最新

全栈学习微软 DeepSpeed，掌握 ZeRO 优化、通信压缩、混合精度训练和 DeepSpeed-Inference 等特性，低成本训练与部署超大模型。

人工智能 DeepSpeed 分布式训练加速

7 0 0

2026-06-14

最新

深入 ZeRO 三阶段，学习如何将优化器状态、梯度和模型参数分片到数据并行组，配合 CPU 卸载，近乎消除分布式训练的内存冗余。

人工智能 ZeRO 显存优化分布式训练

6 0 0

2026-06-14

最新

了解如何将混合专家模型的不同专家分布到多卡，通过专家并行与辅助损失平衡路由，实现参数总量巨大但计算量恒定的高效分布式训练。

人工智能专家并行 MoE 分布式训练

6 0 0

2026-06-14

最新

解读流水线并行的架构与调度策略，如 GPipe 与 1F1B，将模型的不同层分配到多个设备，通过微批次流水化减少计算空泡。

人工智能流水线并行分布式训练层切分

5 0 0

2026-06-14

最新

学习张量并行的原理，如何将 Transformer 层内的权重矩阵按列或行切分到多个 GPU，减少单卡显存占用并实现更大模型训练。

人工智能张量并行分布式训练显存优化

7 0 0

2026-06-14

免费编程教程