免费编程教程

最新
长文本训练优化

解决超长文本训练时的显存与计算挑战,学习序列并行、选择性激活检查点和分页优化等工程技术。

5 0 0
2026-06-22
最新
混合精度训练 AMP

学习自动混合精度训练机制,利用 FP16 或 BF16 计算加速并省内存,通过损失缩放与动态类型转换保持训练数值稳定。

7 0 0
2026-06-14
最新
梯度累积与检查点

掌握梯度累积以在小 GPU 上模拟大批次训练,结合激活检查点用时间换空间,突破显存限制,保障模型稳定收敛。

8 0 0
2026-06-14
最新
零冗余优化器 ZeRO

深入 ZeRO 三阶段,学习如何将优化器状态、梯度和模型参数分片到数据并行组,配合 CPU 卸载,近乎消除分布式训练的内存冗余。

5 0 0
2026-06-14
最新
序列并行

探索序列并行技术,将长序列沿序列维度切分到多个设备,结合 Ring Attention 等方法降低注意力计算的显存峰值,训练更长上下文。

8 0 0
2026-06-14
最新
模型并行张量并行

学习张量并行的原理,如何将 Transformer 层内的权重矩阵按列或行切分到多个 GPU,减少单卡显存占用并实现更大模型训练。

6 0 0
2026-06-14
最新
FlashAttention 加速

解析 FlashAttention 如何通过分块计算与重计算技术,在 SRAM 中完成注意力计算,实现内存与速度的双重突破,且数学上完全等价。

7 0 0
2026-06-14