免费编程教程

全部标签 Python 自动化系统设计可视化开源安全 Java Android 隐私架构性能微调

最新

DeepSeek MoE 架构

学习 DeepSeek 提出的混合专家架构，结合细粒度专家和共享专家，在提升模型容量同时控制计算成本。

人工智能 DeepSeek MoE 细粒度

1 0 0

2026-06-22

最新

专家容量

通过设定专家容量，对每个专家能处理的最大 Token 数进行硬限制，避免显存溢出并强制路由平衡。

人工智能专家容量 MoE 负载均衡

5 0 0

2026-06-22

最新

负载均衡损失

学习设计辅助损失函数，鼓励路由将 Token 均匀分配给不同专家，防止模型仅依赖少数专家。

人工智能负载均衡 MoE 路由

3 0 0

2026-06-22

最新

混合专家 MoE 深入

深入 MoE 架构，解析 Top-K 路由、专家负载均衡损失和容量因子的设计，实现参数总量巨大但计算量恒定的大模型。

人工智能 MoE 专家混合路由

5 0 0

2026-06-22

最新

专家并行混合专家

了解如何将混合专家模型的不同专家分布到多卡，通过专家并行与辅助损失平衡路由，实现参数总量巨大但计算量恒定的高效分布式训练。

人工智能专家并行 MoE 分布式训练

6 0 0

2026-06-14