Soft MoE：基于软分配的全专家混合架构

FreeGuideOnline 最新 2026-06-22

Soft MoE：从稀疏专家到软分配的革命

在深度学习领域，模型规模的扩展往往伴随着计算成本的指数级增长。混合专家（Mixture of Experts, MoE） 架构通过稀疏激活部分参数，有效缓解了这一问题。然而，传统的稀疏门控在训练稳定性与负载均衡上存在固有挑战。Soft MoE 应运而生，以完全连续、可微的“软分配”颠覆了专家混合的方式，在保持模型容量的同时大幅简化了优化过程。

什么是软混合专家？

Soft MoE 是由 Google DeepMind 在 2023 年提出的一种全新 MoE 范式。它的核心思想是：不是让每个输入 token 硬性地选择一个或少数几个专家，而是将所有 token 进行软加权组合，形成固定数量的“槽”（slot），再将每个槽交给唯一的专家处理，最后将输出反向软加权回原始 token 位置。整个过程在全软分配下保持完全可微，无需辅助损失即可天然实现负载平衡。

硬分配 vs 软分配

传统 Sparse MoE（硬分配）：一个路由器为每个 token 计算专家的离散选择（通常 top-k），只有被选中的专家参与计算。这引入了离散操作，必须依赖负载均衡损失来防止专家坍塌，训练不够稳定。
Soft MoE（软分配）：彻底摒弃离散选择。输入 tokens 被可学习地投影为多个“专家槽”的加权和，每个槽由对应专家独立处理后，再通过相同权重的转置将输出分散回 tokens。整个网络保持端到端可微，无需任何离散采样或额外平衡损失。

Soft MoE 的核心架构

Soft MoE 的设计极为优雅，主要由三个步骤构成：槽组合、专家处理、槽分解。

1. 槽组合：从 Token 到固定数量的专家槽

给定输入序列 $X \in \mathbb{R}^{n \times d}$（$n$ 个 token，维度 $d$），Soft MoE 的每个专家 $E_j$ 都对应一个可学习向量（或称为“槽表示”）$\phi_j$。通过一个轻量的软分配矩阵 $\Phi \in \mathbb{R}^{n \times s}$（$s$ 为槽数，即专家数），将 $n$ 个 token 软映射到 $s$ 个槽：

$$\tilde{X} = \Phi^\top X$$

其中，$\Phi_{i,j} = \text{softmax}(X_i \cdot W_\phi)_j$。每个槽的输入 $\tilde{x}_j$ 是所有 token 的加权平均，权重由输入 token 与槽向量的相似度决定。这本质上是一种可微的槽注意力机制。

关键点：这里 $\Phi$ 通过 softmax 在槽维度上进行归一化，保证每个 token 对所有槽的权重和为 1。这使得所有专家槽都能接收到来自整个序列信息的平滑混合，天然避免了某专家被闲置的风险。

2. 专家处理：独立的 FFN 变换

每个槽输入 $\tilde{x}_j$ 被送入其专属的专家网络 $f_j(\cdot)$（通常是一个标准的前馈网络）中，得到槽输出：

$$\tilde{y}_j = f_j(\tilde{x}_j)$$

所有专家可以并行计算，与标准 MoE 相同。

3. 槽分解：从专家槽回到 Token

处理完的槽输出 $Y_{\text{slots}} \in \mathbb{R}^{s \times d}$ 需要通过同样的软分配逻辑重新映射回 $n$ 个 token。这一步使用同一个分配矩阵 $\Phi$（或其转置），将专家输出按权重分发：

$$Y = \Phi , Y_{\text{slots}}$$

最终的输出 $y_i$ 是所有专家槽输出的加权组合，权重即为第 $i$ 个 token 对各槽的 softmax 得分。为了保持数值稳定性并保证各 token 得到的信息量均等，通常会对 $\Phi$ 的转置进行适当的归一化（例如除以每个 token 的总权重），也可在组合阶段就按槽归一化，形成输入-槽-输出的对称结构。

完整流程一次总结

输入 tokens → 计算软分配矩阵 $\Phi$（基于 token 与槽嵌入的点积 + softmax）。
加权求和得到 $s$ 个槽表示 $\tilde{X}$。
每个槽通过独立专家 $f_j$ 得 $\tilde{Y}$。
用 $\Phi$ 将槽输出加权聚合回 token 维度，加上残差连接与层归一化。

整个 Soft MoE 层是完全可微的，可以用标准反向传播训练，无需任何额外的负载平衡损失或辅助损失。

为什么 Soft MoE 更优越？

1. 完全可微，训练稳定

稀疏 MoE 中的 top-k 选择是一个离散操作，通常需要借助停止梯度或特殊的负载平衡损失来训练。Soft MoE 则用连续的 softmax 代替离散门控，优化景观平滑，收敛更快，消除了由于不平衡导致的专家崩溃问题。

2. 自动负载均衡

由于每个槽的输入是所有 token 的加权平均，每个专家处理的槽数固定且完全均等，根本不存在专家闲置或过载的可能。负载均衡被架构天然保证，不再是一种依赖超参数的脆弱调优。

3. 更高的容量利用率

稀疏 MoE 中，很多专家只处理少数 token，尤其在小批量下严重退化。Soft MoE 的每个槽都拥有全局信息的视野，所有专家都参与每一次前向，充分利用了模型参数。实验表明，Soft MoE 在相同参数和计算量下通常优于稠密模型和稀疏 MoE。

4. 概念简洁，实现容易

不需要辅助损失，不需要容量因子，不需要可微的 top-k 近似（如 Gumbel-Softmax），代码实现反而比稀疏 MoE 更简单。只需在标准 Transformer 的 FFN 位置插入一个带槽注意力机制的模块。

与其他 MoE 变体的对比

特性	稀疏 MoE (Top-k)	Soft MoE
路由机制	离散选择 top-k 专家	连续软加权所有专家
负载均衡	需辅助损失	天然平衡（固定槽数）
可微性	非可微（需估计器）	全局可微
专家利用率	可能不均衡	每个专家都被完全利用
计算复杂度	Token 数×激活专家容量	Token 数×槽数 (固定)
适合批大小	大 batch 效果较好	小 batch 同样鲁棒

Soft MoE 以稍高的每 token 计算开销（因为软加权涉及矩阵乘法）换取了极简的训练范式和更好的性能稳定性。在实际部署中，软分配的计算可高度并行化，结合高效的注意力实现，总体开销可控。

实现要点与代码骨架

在 PyTorch 中，Soft MoE 层的核心实现大致如下（简化版，仅示意关键逻辑）：

class SoftMoELayer(nn.Module):
    def __init__(self, dim, num_experts, expert_fn):
        super().__init__()
        self.num_experts = num_experts
        self.slot_embeds = nn.Parameter(torch.randn(num_experts, dim))
        self.experts = nn.ModuleList([expert_fn() for _ in range(num_experts)])
    
    def forward(self, x):
        # x: (batch, seq, dim)
        # 计算软分配矩阵：token 与槽嵌入的点积 + softmax
        logits = torch.einsum('bnd,sd->bns', x, self.slot_embeds)
        phi = torch.softmax(logits, dim=-1)  # (B, N, S)
        
        # 组合阶段：加权求和得到槽输入
        # phi 形状为 (B, N, S)，x 为 (B, N, D)
        slots = torch.einsum('bns,bnd->bsd', phi, x)  # (B, S, D)
        # 可选：对槽做归一化，如除以每个槽的总权重
        # slots = slots / phi.sum(dim=1, keepdim=True).clamp_min(1e-6)
        
        # 专家并行处理
        expert_outputs = []
        for i, expert in enumerate(self.experts):
            out = expert(slots[:, i, :])  # (B, D)
            expert_outputs.append(out)
        expert_outputs = torch.stack(expert_outputs, dim=1)  # (B, S, D)
        
        # 分解阶段：用相同权重还原到 token
        y = torch.einsum('bns,bsd->bnd', phi, expert_outputs)  # (B, N, D)
        # 同样可以归一化 y 除以每个 token 的总连接权重
        # y = y / phi.sum(dim=-1, keepdim=True).clamp_min(1e-6)
        return y

实践中常添加归一化、残差连接以及可选的输入/输出投影以提升性能。

训练技巧与建议

槽初始化：槽嵌入可随机初始化，或从输入分布中采样，确保初始软分配不至于过度集中。
归一化选择：在组合与分解时进行权重归一化（如除以每个槽或每个 token 的权重和）有助于训练的数值稳定性，并使每个 token 的输出幅度更稳定。
学习率与优化器：Soft MoE 整体对学习率不太敏感，但槽嵌入与专家参数可能适合不同的学习率，可采用分组学习率策略。
扩展性：槽数（专家数）可随模型宽度灵活调整，更大的槽数带来更高的容量。实验发现，即使将槽数设置得远小于序列长度，模型也能很好地概括全局模式。
与其他技术集成：可与稀疏 MoE 混合使用形成“软-硬混合”，或在 Transformer 中替换部分 FFN 层，实现效率与效能的折中。

典型应用场景

大规模语言模型：在参数高达数百亿的模型中，Soft MoE 能显著降低训练不稳定性和负载失衡问题，同时保持模型性能。
视觉 Transformer (ViT)：图像块数量巨大，软分配可让所有专家获得全局上下文，提升类 ViT 架构的表示能力。
多模态模型：不同模态 token 可自然分配到不同专家槽，隐式实现跨模态的软融合。
低批量训练环境：Soft MoE 在小 batch 下仍能满载所有专家，适合内存受限或分布式同步困难的场景。

结语

Soft MoE 用简洁的数学重新定义了混合专家的内涵。它告诉我们：让每个专家看到整个输入的全景，比强迫专家只处理一部分输入更优雅，也更容易优化。 这种“软分配”思想不仅在性能上表现出色，更在架构设计上提供了一种全新的思路——用可微的全局注意力替换离散路由，可能是大规模模型扩展的下一程。

如果你正在构建下一代高效大模型，不妨尝试将稀疏门控替换为 Soft MoE 的软分配范式，也许会收获意想不到的稳定与高效。