免费编程教程

最新
DeepSeek MoE 架构

学习 DeepSeek 提出的混合专家架构,结合细粒度专家和共享专家,在提升模型容量同时控制计算成本。

1 0 0
2026-06-22
最新
专家容量

通过设定专家容量,对每个专家能处理的最大 Token 数进行硬限制,避免显存溢出并强制路由平衡。

5 0 0
2026-06-22
最新
负载均衡损失

学习设计辅助损失函数,鼓励路由将 Token 均匀分配给不同专家,防止模型仅依赖少数专家。

3 0 0
2026-06-22
最新
混合专家 MoE 深入

深入 MoE 架构,解析 Top-K 路由、专家负载均衡损失和容量因子的设计,实现参数总量巨大但计算量恒定的大模型。

5 0 0
2026-06-22
最新
专家并行混合专家

了解如何将混合专家模型的不同专家分布到多卡,通过专家并行与辅助损失平衡路由,实现参数总量巨大但计算量恒定的高效分布式训练。

6 0 0
2026-06-14