大模型训练稳定性：损失突刺、发散与恢复

FreeGuideOnline 最新 2026-06-14

大模型训练稳定性：损失突刺、发散与恢复

训练千亿参数大模型时，损失函数突然飙出天际、梯度爆炸、甚至整轮训练崩掉……这些“翻车”现场都有技术解法。本教程系统拆解训练不稳定的根本原因，并给出从预防到急救的完整工具箱。

为什么大模型训练特别容易崩？

训练一个小型全连接网络，你可能这辈子都没见过损失突刺。但一旦模型参数量来到数十亿、Transformer层数深不见底，训练就会变得异常敏感。原因几乎都藏在极端数值和高方差梯度里。

1. 注意力机制的数值黑洞

Softmax计算涉及指数运算。当注意力分数中的数值较大（例如点积结果超过几十），$e^x$ 会爆炸，导致整个softmax输出变成几乎独热的向量，反向传播时梯度趋近于零或溢出为 NaN。尤其在使用FP16混合精度时，FP16能表示的最大值只有65504，稍大的中间值就会直接溢出。

2. 层归一化后的放大效应

LayerNorm 试图稳定每一层的输出分布，但它的除数里包含方差。如果输入中出现离群值，方差计算会产生极小或极大的倒数，同样会将数值推向 FP16 的边界。

3. 残差连接的累积误差

深层 Transformer 中，残差连接将各子层的输出累加。若某个子层的输出出现异常大的值，它会沿着残差路径传播并污染后续所有的隐状态，就像墨水在清水中扩散。

4. 优化器与参数规模的共振

Adam 类优化器维护梯度的二阶动量。在大模型中，某些参数的梯度可能持续很小，导致自适应学习率变得极大；而另一些参数的梯度一阶、二阶估计剧烈震荡，在参数更新时相互叠加，最终导致更新步长失控。

损失突刺：瞬间爆表与自动回落

损失突刺（Loss Spike）是指损失值在若干步内突然飙升数倍甚至数十倍，随后又迅速恢复的现象。它不一定会让训练崩掉，但会显著降低最终模型质量。

突刺的形成机制

突刺几乎总伴随着局部梯度异常。一批数据恰好包含极长序列、重复模式或特殊 token 组合，导致某个子层的激活统计量暂时偏离常规范围，使局部梯度飙升。由于优化器（如 Adam）用历史梯度进行平滑，单步的巨幅梯度并不会立刻体现在参数更新上，但它会污染二阶动量，导致后续好几步的学习率异常，让损失曲线出现“冲高—恢复”的形状。

突刺的危害

参数破坏：突刺瞬间的更新会覆盖此前精细优化得到的权重，尤其是嵌入层和输出层最容易受伤。
动量中毒：Adam 的 v_t（二阶动量）被异常大梯度污染后，需要几百步才能恢复到正常水平，期间学习率被错误缩放。
后续预测不可靠：即使损失回落，模型内部表征可能已发生微妙偏移，导致后续训练中频繁出现新的突刺。

恢复策略：给训练装上保险丝

梯度裁剪 (Gradient Clipping)：最基础也最有效的防线。将全局梯度的 L2 范数裁剪到阈值（如 1.0），超过则等比缩放。你会发现这几乎能消灭一半的突刺。
跳过异常批次：在训练循环中加入实时监测。如果某步的损失值超过移动平均值的 N 倍（例如 5 倍），直接 continue 跳过本次更新。
回滚检查点：当检测到损失突刺后，自动从最近的安全检查点恢复，并跳过引发问题的数据批次（需记录 batch 哈希或索引）。
降低学习率预热：确保学习率从极小值开始线性预热，让模型参数先适应数据分布，避免早期突刺。

训练发散：当你再也回不到正常损失

损失发散 (Divergence) 比突刺更致命：损失值一路狂飙并变成 NaN，或者波动幅度不断增大直至模型输出全为常量。发散意味着训练已经“死了”，必须回退到更早的检查点或彻底调整超参数。

发散的病理分析

发散通常源于正反馈循环：某步产生了过大参数更新 → 模型参数值变得异常大 → 下一批数据的激活值更加异常 → 产生更大的梯度 → 参数彻底爆炸。一旦 FP16 溢出成为常态，NaN 会像病毒一样通过链式法则传播到整个计算图。

关键判据

损失 NaN：最直白的宣告。
损失持续上升：连续超过 1000 步损失无下降，且波动剧烈。
梯度的梯度比例异常：某些层的梯度平均 magnitude 是其他层的千倍以上。

急救方案

立即停止并降低学习率：将当前学习率缩小十倍，从最近的安全检查点重启。
切换到 FP32 的梯度和优化器状态：使用混合精度时，务必在 FP32 下累积梯度副本和更新参数（AMP 的默认行为）。如果手动实现有误，就全切 FP32 牺牲速度保稳定。
添加 LayerNorm 的 epsilon 保护：将 LayerNorm 中的 epsilon 从默认的 1e-5 提高到 1e-4 甚至 1e-3，增加数值稳定性。
禁用内存冗余的算子融合：某些自定义的 FlashAttention 或融合算子可能在边界条件下产生错误的结果，遇到 NaN 可以暂时回退到朴素实现排查。

从预防到强健：稳定性工程实践

真正成熟的训练流程不是等崩了再修，而是把稳定性刻进架构与训练规则的骨髓里。

架构层的免疫力

Pre-LayerNorm 替代 Post-LN：原始 Transformer 的层归一化在残差之后，易出现深层梯度消失/爆炸。将 LayerNorm 移到子层前面（Pre-LN），训练会显著更稳定，这也是当前所有主流大模型的首选布局。
QK 归一化：在计算注意力分数前，分别对 Query 和 Key 进行 LayerNorm 或 RMSNorm，将点积值限制在可控范围内，近乎消除注意力中的数值尖峰。
移除或约束偏置项：某些实现中去掉注意力投射和 FFN 中的偏置（如 PaLM），能减少一个自由度上的数值漂移。
用 RMSNorm 替代 LayerNorm：RMSNorm 只做缩放不做中心化，计算更快且在某些场景更稳定。

优化器与混合精度技巧

AdamW 的权重衰减解耦：确保权重衰减直接作用于参数，而非通过梯度，避免扰动自适应学习率的统计量。
梯度累积与缩放因子：在混合精度训练中，loss scale 动态调整。如果频繁出现 overflow 警告，说明初始 scale 或增长策略需更保守。
Z-loss 正则化：在输出 logits 上增加一个稳定项 $L_Z = \lambda \cdot \log^2(Z)$，约束 logits 的绝对值不要过大，这被证实能有效防止语言模型训练后期的损失漂移。
嵌入层归一化：将输出投影前的 logits 先做 LayerNorm，显著降低最终损失面的尖锐度。

数据与超参哲学

批次大小与学习率线性缩放：大 batch 需要更大学习率，但过大会引发不稳定性。采用“热身-恒定-衰减”三段式学习率调度，并监控“梯度噪声尺度”。
数据顺序与课程学习：在预训练早期，先喂入高质量、短序列的语料（如书籍数据），再引入长尾、噪声大的数据，让优化器建立稳健的基础区域。
验证集的 Loss 差异监测：除了主训练损失，持续跟踪验证集上损失的方差。方差突然增大通常是发散的前兆。

急救工具箱速查表

症状	立即操作	根本性修复
偶然突刺（非 NaN）	梯度裁剪、跳过异常批次	降低学习率、添加 QK 归一化、增加预热步骤
频繁突刺	回滚到更早检查点、降低学习率	切换到 Pre-LN、应用 Z-loss、提高 epsilon
损失 NaN	降低学习率、检查 FP32 主权重、排查算子	全 FP32 训练、加入梯度噪声注入（谨慎使用）
后期损失缓慢漂移上升	轻微降低学习率、增强 Z-loss 系数	引入 EMA 模型进行平滑、考虑 SWA 集成
某一层梯度异常大	对该层单独设置更小的学习率乘子	架构中插入额外的 LayerNorm/RMSNorm

监控与自动化：让机器自己发现问题

手动看曲线已经跟不上千卡集群的步伐。你需要一条自动触发、分级响应的监控流水线。

指标定义：除了全局损失，实时计算梯度范数、参数更新范数、每层激活均值和峰度、loss scale 的变化频率。
触发规则：如“最近 100 步内出现 3 次损失突刺”或“连续 5 步梯度范数超过历史中位数的 10 倍”，自动执行降低学习率或跳过批次。
仪表盘与告警：将所有关键信号接入 TensorBoard 或 W&B，设置 Webhook 通知。损失出现 NaN 时应立即发送高优先级告警，并自动触发保存当前状态以便事后 debug。
事后复现工具：记录触发异常时的那批数据的索引与内容，使用 torch.autograd.detect_anomaly 或 NVIDIA 的 Nsys 对特定步进行深度剖析。

大模型训练的稳定性从来不是一蹴而就的魔法，而是工程细节的叠加。当你把 Pre-LN、QK Norm、Z-loss、梯度裁剪与智能监控组合在一起，你会发现曾经让你夜不能寐的突刺和发散，会变成一条从容平缓的损失曲线。