最新
软混合专家 Soft MoE
学习 Soft MoE 如何将 Token 以连续权重分配给所有专家,并先合并输入再分派,在完全可微分的同时更易训练。
1
0
0
2026-06-22