最新
零冗余优化器 ZeRO
深入 ZeRO 三阶段,学习如何将优化器状态、梯度和模型参数分片到数据并行组,配合 CPU 卸载,近乎消除分布式训练的内存冗余。
5
0
0
2026-06-14