最新
DeepSeek MoE 架构
学习 DeepSeek 提出的混合专家架构,结合细粒度专家和共享专家,在提升模型容量同时控制计算成本。
1
0
0
2026-06-22
最新
混合专家 MoE 深入
深入 MoE 架构,解析 Top-K 路由、专家负载均衡损失和容量因子的设计,实现参数总量巨大但计算量恒定的大模型。
5
0
0
2026-06-22