最新
软混合专家 Soft MoE
学习 Soft MoE 如何将 Token 以连续权重分配给所有专家,并先合并输入再分派,在完全可微分的同时更易训练。
1
0
0
2026-06-22
最新
混合专家 MoE 深入
深入 MoE 架构,解析 Top-K 路由、专家负载均衡损失和容量因子的设计,实现参数总量巨大但计算量恒定的大模型。
5
0
0
2026-06-22