免费编程教程

最新
FSDP 全分片数据并行

学习 PyTorch FSDP 的原理与用法,在数据并行中分片模型参数、梯度和优化器状态,并支持多种分片策略以平衡内存与通信。

6 0 0
2026-06-14
最新
DeepSpeed 分布式训练

全栈学习微软 DeepSpeed,掌握 ZeRO 优化、通信压缩、混合精度训练和 DeepSpeed-Inference 等特性,低成本训练与部署超大模型。

7 0 0
2026-06-14
最新
零冗余优化器 ZeRO

深入 ZeRO 三阶段,学习如何将优化器状态、梯度和模型参数分片到数据并行组,配合 CPU 卸载,近乎消除分布式训练的内存冗余。

6 0 0
2026-06-14
最新
专家并行混合专家

了解如何将混合专家模型的不同专家分布到多卡,通过专家并行与辅助损失平衡路由,实现参数总量巨大但计算量恒定的高效分布式训练。

6 0 0
2026-06-14
最新
流水线并行

解读流水线并行的架构与调度策略,如 GPipe 与 1F1B,将模型的不同层分配到多个设备,通过微批次流水化减少计算空泡。

5 0 0
2026-06-14
最新
模型并行张量并行

学习张量并行的原理,如何将 Transformer 层内的权重矩阵按列或行切分到多个 GPU,减少单卡显存占用并实现更大模型训练。

7 0 0
2026-06-14