Stochastic Depth：随机丢弃残差层的训练策略

FreeGuideOnline 最新 2026-06-21

什么是 Stochastic Depth？

Stochastic Depth（随机深度）是一种专门为极深残差网络（ResNet） 设计的正则化与训练加速策略。其核心思想非常直观：在训练过程中，以一定的概率随机丢弃整个残差块，让信息主要通过跳跃连接（Skip Connection）向前传播。这种做法可以看作是为残差网络量身定做的 Dropout 变体，它不是在神经元或权重层面引入噪声，而是直接在层（Layer）的层面进行随机丢弃。

对于初学者来说，可以这样理解：一个很深的 ResNet 就像一列很长的火车，每个残差块是一节车厢。Stochastic Depth 在每次训练迭代中，会随机决定关闭某些车厢，让火车变短。这不仅减少了计算量，加速了训练，还迫使网络不依赖任何单一车厢，从而学习到更具鲁棒性的特征表达，起到正则化效果，防止过拟合。

为什么需要 Stochastic Depth？

ResNet 深度增加的困境

随着 ResNet 层数增长到几百甚至上千层，会出现两个主要问题：

训练极其缓慢：更深的网络意味着更多的计算量和更大的显存占用。
梯度消失与信息流不畅：尽管有残差连接，但在训练初期，梯度仍可能在通过极深路径时衰减，导致靠近输入端的深层网络难以得到有效训练。同时，模型可能退化为“过度依赖某些特定深度的路径”，泛化能力受限。

Stochastic Depth 带来的优势

缩短有效深度：训练时随机丢弃残差块，相当于在不同迭代中训练了不同深度的浅层网络。这些浅层网络因为深度减小，梯度能更顺畅地回传，极大缓解了梯度消失问题。
隐式模型集成：每一次训练迭代，实际上都是在训练一个随机采样的子网络。最终训练好的完整网络，在测试时相当于所有这些子网络的集成（类似于 Dropout 的集成效果），这显著提升了模型的泛化能力，降低了测试误差。
几乎无额外计算开销：丢弃操作只需要一个简单的蒙版（mask），不引入需要学习的参数。更重要的是，被丢弃的残差块在前向和反向传播中直接被跳过，训练速度可以得到大幅提升（尤其当丢弃概率较高时）。
允许训练极深网络：原论文实验表明，使用 Stochastic Depth 可以成功训练超过 1200 层的 ResNet，并持续获得性能提升，而没有该策略时，极深网络往往无法收敛或性能下降。

Stochastic Depth 的工作原理

核心公式与操作

对于一个标准的残差块，其输出为： [ H_{l} = \text{ReLU}(f_{l}(H_{l-1}) + \text{identity}(H_{l-1})) ] 其中 ( f_{l} ) 是残差函数（由 Conv、BN、ReLU 等组成），identity 为恒等映射（当维度不匹配时使用 1×1 卷积对齐）。

引入 Stochastic Depth 后，我们为每个残差块引入一个伯努利随机变量 ( b_{l} \in {0, 1} )，表示该块是否被激活（keep probability ( p_{l} )）。块输出变为： [ H_{l} = \text{ReLU}(b_{l} \cdot f_{l}(H_{l-1}) + \text{identity}(H_{l-1})) ] 当 ( b_{l} = 0 ) 时，残差分支 ( f_{l} ) 被完全忽略，输入直接经过激活函数传递给下一层。注意：即使残差分支被丢弃，跳跃连接依然保留，这正是深度随机性的精妙之处——网络总能传递恒等信号，不会完全阻断信息流。

生存概率的设计模式

论文提出了一种线性衰减规则（Linear Decay Rule） 来设定每个残差块的保留概率 ( p_{l} )。越靠近输入的浅层块，( p_{l} ) 越小（更容易被丢弃）；越靠近输出的深层块，( p_{l} ) 越大（更倾向于保留）。公式如下： [ p_{l} = 1 - \frac{l}{L}(1 - p_{L}) ] 其中 ( L ) 是残差块的总数，( p_{L} ) 是最后一个残差块的保留概率（通常设为接近 1 的值，如 0.8 或 0.9）。这样设计的动机是：

浅层特征更基础、更通用，即使丢弃部分浅层块，深层网络仍能从前层接收恒等映射的特征，相当于降低了网络初始阶段的容量，鼓励深层网络去学习功能更强的表示。
深层特征更高层、更特化，保留概率更高可以保护分类层前的关键语义信息不被随机破坏。

训练与测试的不一致性处理

与 Dropout 类似，训练时我们使用了随机丢弃，但测试时所有残差块都必须保留（( b_{l} = 1 )）。为了弥补训练与测试时网络状态差异带来的输出尺度偏移，需要对残差块的输出进行期望值校正。校正方法可以是在测试时将 ( f_{l} ) 的输出乘以保留概率 ( p_{l} )，但更常见的做法（原论文采用）是在训练时，对保留下来的残差分支输出进行缩放，即除以 ( p_{l} )： [ H_{l} = \text{ReLU}(\frac{b_{l}}{p_{l}} \cdot f_{l}(H_{l-1}) + \text{identity}(H_{l-1})) ] 这样，残差分支在训练阶段的输出期望值与测试阶段保持一致，无需在测试时做任何额外处理。

如何在代码中实现 Stochastic Depth

以下以 PyTorch 为例，给出一个可直接使用的 Stochastic Depth 实现。关键点包括线性衰减的保留概率、伯努利采样，以及训练阶段的缩放校正。

import torch
import torch.nn as nn

class StochasticDepth(nn.Module):
    """随机丢弃残差块的模块。
    Args:
        drop_prob (float): 该残差块被丢弃的概率 (1 - 保留概率)。
        注意：对于线性衰减规则，drop_prob 会随块深度变化。
    """
    def __init__(self, drop_prob: float):
        super().__init__()
        self.keep_prob = 1 - drop_prob

    def forward(self, x):
        if not self.training or self.keep_prob == 1.0:
            return x
        
        # 生成与 batch 维度匹配的随机蒙版，形状为 (batch_size, 1, 1, 1, ...)
        shape = (x.shape[0],) + (1,) * (x.ndim - 1)
        random_tensor = self.keep_prob + torch.rand(shape, dtype=x.dtype, device=x.device)
        binary_mask = torch.floor(random_tensor)  # 1 表示保留，0 表示丢弃
        
        # 训练时对保留下来的分支进行缩放，保持期望一致
        return (x * binary_mask) / self.keep_prob

在实际的残差块中使用时，通常将 Stochastic Depth 应用于残差分支的输出：

class ResBlock(nn.Module):
    def __init__(self, in_channels, out_channels, stride, drop_prob):
        super().__init__()
        self.conv1 = nn.Conv2d(in_channels, out_channels, 3, stride, 1, bias=False)
        self.bn1 = nn.BatchNorm2d(out_channels)
        self.conv2 = nn.Conv2d(out_channels, out_channels, 3, 1, 1, bias=False)
        self.bn2 = nn.BatchNorm2d(out_channels)
        self.relu = nn.ReLU(inplace=True)
        
        # 线性衰减规则：drop_prob 由外部根据块深度传入
        self.stochastic_depth = StochasticDepth(drop_prob)
        
        self.downsample = None
        if stride != 1 or in_channels != out_channels:
            self.downsample = nn.Sequential(
                nn.Conv2d(in_channels, out_channels, 1, stride, bias=False),
                nn.BatchNorm2d(out_channels)
            )
    
    def forward(self, x):
        identity = x
        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu(out)
        out = self.conv2(out)
        out = self.bn2(out)
        
        # 对残差分支应用随机深度
        out = self.stochastic_depth(out)
        
        if self.downsample is not None:
            identity = self.downsample(x)
        
        out += identity
        out = self.relu(out)
        return out

在构建整个网络时，需要按块索引计算每个阶段每个块的丢弃概率。例如对于总块数 L_total，第 l 个块的保留概率 p_l = 1 - (l / L_total) * (1 - final_keep_prob)，丢弃概率为 1 - p_l。

何时使用 Stochastic Depth？

Stochastic Depth 主要适用于以下场景：

训练极深的 ResNet 变体（如 ResNet-200、ResNet-1202），几乎成为标配，能大幅提升收敛速度和最终精度。
训练大规模视觉 Transformer（ViT） 的变体，许多 ViT 结构（如 Swin Transformer）借鉴了 Stochastic Depth，将其作为正则化手段应用于注意力或 MLP 子层，有效防止过拟合。
当数据量相对模型容量偏小时，Stochastic Depth 的正则化效果尤为突出，可缓解过拟合。
需要加速大模型训练：由于随机跳过计算，实际训练通量明显提高，在有限资源下可尝试更深的结构。

不适用场景 ：

网络本身较浅（如 ResNet-18/34），丢弃残差块可能导致信息损失过大，反而损害性能。
训练数据极为庞大，模型不易过拟合时，Stochastic Depth 的收益可能不明显。

与其他正则化技术的比较

技术	操作层面	作用对象	主要效果
Dropout	神经元	全连接层	防止特征共适应，通用正则化
DropPath	路径/分支	多分支结构的整条路径	Stochastic Depth 是 DropPath 的特例
Stochastic Depth	残差块	残差网络的残差分支	缩短有效深度，隐式集成，加速训练
DropBlock	空间块	卷积层的局部区域	专门针对卷积层的结构化 Dropout

Stochastic Depth 的优势在于它是结构感知的，充分利用了残差网络的跳跃连接特性，既达到了正则化目的，又直接缩短了反向传播路径。

实践建议与调参技巧

保留概率的选择
- 推荐使用线性衰减规则，并将最后一个块的保留概率 p_L 设置在 0.5 到 0.9 之间。对于 CIFAR 数据集，原论文采用 p_L=0.5；对于更大型的数据集（如 ImageNet），p_L=0.8 左右效果良好。
- 如果手动设置恒定丢弃概率，切忌过高（如丢弃概率超过 0.5 训练的稳定性会下降）。
训练与测试的一致性
务必在训练时做除以存活概率的缩放，或者测试时乘以存活概率。前者实现更简单，不易遗漏。
与学习率、Batch Size 的配合
Stochastic Depth 改善了梯度流动，允许使用稍大的学习率。通常可以与较大的初始学习率搭配，但需适当观察训练曲线。
与其他正则化组合
Stochastic Depth 可以与权重衰减、标签平滑、Mixup 等组合使用，通常能进一步提点。与 Dropout 同时使用时需谨慎，防止过度正则化。
断点续训与随机状态
由于每个 batch 的丢弃模式是随机的，这不会影响断点续训（checkpoint 恢复），只要保证随机数种子可复现，通常即可无缝恢复训练。

总结

Stochastic Depth 是一种巧妙且高效的正则化技术，专为残差架构而生。它通过随机缩短网络深度的方式，在不增加推理成本的前提下，显著加速训练、提升模型泛化性，使得训练超深神经网络成为可能。如今，Stochastic Depth 的思想已超越了 ResNet，被广泛应用于 ViT 等现代架构中，成为深度学习工程师工具箱中不可或缺的一员。

如果你想亲手实践，可以从微调一个带有 Stochastic Depth 的 pre-activation ResNet 开始，建议在 CIFAR-10/100 数据集上快速验证，并对比有无该策略时的训练曲线和测试精度。欢迎将你的实验结果分享在评论区。