最新
混合精度训练 AMP
学习自动混合精度训练机制,利用 FP16 或 BF16 计算加速并省内存,通过损失缩放与动态类型转换保持训练数值稳定。
7
0
0
2026-06-14
最新
零冗余优化器 ZeRO
深入 ZeRO 三阶段,学习如何将优化器状态、梯度和模型参数分片到数据并行组,配合 CPU 卸载,近乎消除分布式训练的内存冗余。
5
0
0
2026-06-14
最新
FlashAttention 加速
解析 FlashAttention 如何通过分块计算与重计算技术,在 SRAM 中完成注意力计算,实现内存与速度的双重突破,且数学上完全等价。
7
0
0
2026-06-14