最新
FSDP 全分片数据并行
学习 PyTorch FSDP 的原理与用法,在数据并行中分片模型参数、梯度和优化器状态,并支持多种分片策略以平衡内存与通信。
6
0
0
2026-06-14
最新
DeepSpeed 分布式训练
全栈学习微软 DeepSpeed,掌握 ZeRO 优化、通信压缩、混合精度训练和 DeepSpeed-Inference 等特性,低成本训练与部署超大模型。
7
0
0
2026-06-14
最新
零冗余优化器 ZeRO
深入 ZeRO 三阶段,学习如何将优化器状态、梯度和模型参数分片到数据并行组,配合 CPU 卸载,近乎消除分布式训练的内存冗余。
6
0
0
2026-06-14