显存优化在线教程 | 在有限硬件上训练大模型

最新

长文本训练优化

解决超长文本训练时的显存与计算挑战，学习序列并行、选择性激活检查点和分页优化等工程技术。

人工智能长文本训练显存优化序列并行

5 0 0

2026-06-22

最新

混合精度训练 AMP

学习自动混合精度训练机制，利用 FP16 或 BF16 计算加速并省内存，通过损失缩放与动态类型转换保持训练数值稳定。

人工智能混合精度训练加速显存优化

7 0 0

2026-06-14

最新

梯度累积与检查点

掌握梯度累积以在小 GPU 上模拟大批次训练，结合激活检查点用时间换空间，突破显存限制，保障模型稳定收敛。

人工智能梯度累积检查点显存优化

8 0 0

2026-06-14

最新

零冗余优化器 ZeRO

深入 ZeRO 三阶段，学习如何将优化器状态、梯度和模型参数分片到数据并行组，配合 CPU 卸载，近乎消除分布式训练的内存冗余。

人工智能 ZeRO 显存优化分布式训练

5 0 0

2026-06-14

最新

序列并行

探索序列并行技术，将长序列沿序列维度切分到多个设备，结合 Ring Attention 等方法降低注意力计算的显存峰值，训练更长上下文。

人工智能序列并行长上下文显存优化

8 0 0

2026-06-14

最新

模型并行张量并行

学习张量并行的原理，如何将 Transformer 层内的权重矩阵按列或行切分到多个 GPU，减少单卡显存占用并实现更大模型训练。

人工智能张量并行分布式训练显存优化

6 0 0

2026-06-14

最新

FlashAttention 加速

解析 FlashAttention 如何通过分块计算与重计算技术，在 SRAM 中完成注意力计算，实现内存与速度的双重突破，且数学上完全等价。

人工智能 FlashAttention 注意力加速显存优化

7 0 0

2026-06-14

免费编程教程

长文本训练优化

混合精度训练 AMP

梯度累积与检查点

零冗余优化器 ZeRO

序列并行

模型并行张量并行

FlashAttention 加速