混合专家 MoE 深入：路由机制与负载均衡

FreeGuideOnline 最新 2026-06-22

什么是混合专家模型 (MoE)

混合专家模型（Mixture of Experts，简称 MoE）是一种通过组合多个小型子模型（称为“专家”）并根据输入动态选择部分专家来协作完成任务的神经网络架构。它最早由 Jacobs 等人于 1991 年提出，但在大规模深度学习时代，尤其是语言模型领域，因其在保证模型容量的同时显著降低计算开销而重新受到广泛关注。

MoE 的核心思想是：不同专家擅长处理不同的数据模式，模型通过一个可学习的路由机制将每个输入 token 分配给最合适的专家，只激活部分参数参与计算。这使得模型参数量可以做得非常大（例如数千亿参数），而实际计算量却远小于同等参数量的稠密模型。

路由机制

路由（Routing）是 MoE 中决定“哪个 token 交给哪个专家处理”的核心组件。它通常由一个可训练的门控网络（Gating Network）实现。

门控网络

门控网络接收与专家相同的输入表示（通常为 token 嵌入），并输出一个稀疏的选择决策。其计算过程可以概括为：

g(x) = softmax( W_g · x )

其中 W_g 为门控权重矩阵，x 是输入 token 的表示向量。g(x) 的长度等于专家数量 N，表示对该 token 分配给各专家的概率分布。

稀疏路由与 Top‑K 选择

为降低计算成本，MoE 通常不激活所有专家，而是采用稀疏路由：只选择概率最大的 K 个专家（K << N）。常见取值为 K=1 或 K=2。

Top‑1 路由：将 token 发送给概率最高的专家，计算量仅为单个专家的水平。
Top‑2 路由：选择概率最高的两个专家，并将 token 表示复制后分别送入两个专家，最终输出通常为两路输出的加权和（权重由门控概率重新归一化得到）。

这种机制保证模型容量随专家数量线性增长，而计算量仅随专家数量次线性增长。

软路由与硬路由

软路由：使用门控输出的全概率分布对所有专家的输出进行加权求和，所有专家均参与计算。虽然理论上有更好的梯度流动，但计算开销巨大，不适合大规模场景。
硬路由：直接选取 Top‑K 专家，其余专家输出置零。这样做引入了离散决策，通常需要使用 argmax 或 topk 操作，梯度通过直通估计器（Straight‑Through Estimator）或类似的技巧传回。

现代大型 MoE 架构几乎都采用硬路由，以换取可行的计算效率。

专家容量

由于每个专家在一个批次中处理的 token 数量是不确定的，硬件加速（如 GPU/TPU）需要固定的形状来进行高效矩阵运算。因此引入专家容量的概念：每个专家能处理的 token 数量上限。

容量通常定义为：

capacity = (tokens_per_batch / num_experts) × capacity_factor

其中 capacity_factor 是一个大于 1 的超参数（例如 1.0、1.25）。当某个专家接收到的 token 数量超过其容量时，多余的 token 将被丢弃或溢出到下一层（如在 GShard 中直接丢弃）。这会造成信息损失，因此需辅以负载均衡策略来避免过载。

负载均衡

在训练过程中，门控网络可能逐渐“偷懒”，只将 token 发送给少数专家，导致多数专家得不到训练，这不仅浪费了模型容量，还会引起容量溢出的问题。因此，负载均衡成为 MoE 训练的关键挑战。

辅助损失

最常用的负载均衡方法是引入一个辅助损失函数，鼓励 token 尽量均匀地分配给各专家。

常见的形式是计算专家使用频率的方差或 KL 散度。例如，Switch Transformer 采用的辅助损失如下：

loss_aux = α · N · Σ f_i · P_i

f_i：批次中分配给第 i 个专家的 token 比例。
P_i：批次中门控网络对第 i 个专家输出的平均概率。
α：损失权重超参数（如 1e-2）。
N：专家总数。

通过最小化 loss_aux，门控网络会倾向于让 f_i 和 P_i 都接近均匀分布 1/N，从而促进专家利用率平衡。

负载均衡的 Transformer 层设计

在 Transformer 中集成 MoE，通常会将某些前馈网络（FFN）层替换为 MoE 层。例如，每隔一层使用 MoE。这种做法可以在不显著增加推理成本的前提下提升模型容量。

典型的 MoE‑Transformer 层结构：

输入 → 多头注意力 → 加与归一化 → MoE FFN (稀疏) → 加与归一化 → 输出

专家选择与可逆路由

除了让门控选择专家（Token‑Choice Routing），另一种思路是让专家选择 token（Expert‑Choice Routing）。这种方法设定每个专家主动从前 K 个概率最高的 token 中挑选固定数量的 token 进行处理，可天然保证负载均衡。但它要求每个专家处理的 token 数量严格一致，可能导致部分 token 被完全放弃，影响整体效果。因此 Token‑Choice 路由仍是主流，配合辅助损失和容量机制使用。

容量溢出处理

当 token 数量超过专家容量时，通常有两种处理方式：

丢弃：溢出 token 的输出直接设为残差连接前的值（零向量），相当于该 token “跳过” MoE 层。
随机路由：将溢出 token 随机分配给未满容量的专家，但这时梯度传播可能偏离真正的门控决策。

实践中，通过合适的容量因子和辅助损失联合调节，溢出比例可以控制在极低水平（例如低于 1%），对模型性能影响微乎其微。

常用变体与工程实践

GShard

Google 提出的 GShard 将 MoE 引入 Transformer，使用 Top‑2 门控、专家容量限制和辅助损失，使得模型参数可达 6000 亿。其门控设计还带有输入抖动（jitter）噪音，防止门控过快收敛到静态分配。

Switch Transformer

Switch Transformer 简化了路由机制，仅使用 Top‑1 路由，并证明其能保持性能同时大幅降低计算成本。它引入了不同的辅助损失形式，并验证了容量因子的选取策略对训练稳定性的影响。

分布式实现考量

MoE 天然适合模型并行：不同专家可被放置在不同设备上，门控网络在每个设备上计算本地 token 的分配结果，然后通过 all‑to‑all 通信将 token 发送到对应专家所在的设备。因此，高效的 all‑to‑all 实现和重叠通信计算是 MoE 大规模训练的关键。

总结

混合专家模型通过动态稀疏激活，在参数规模与计算量之间实现解耦，成为扩展大型语言模型的重要技术路线。其核心挑战在于路由机制设计与负载均衡：

路由决定了信息分发的效率，Top‑K 硬路由是主流选择。
负载均衡通过辅助损失、容量控制和专家选择策略来防止专家瘫痪和 token 丢弃。
工程上需配合高效的通信原语，才能将理论优势转化为实际加速。

掌握这些设计原理，就能理解为何现代千亿、万亿参数模型中频繁出现 MoE 的身影，并为自行构建高性能稀疏模型打下坚实基础。