最新
美杜莎头 Medusa 加速
深入 Medusa 架构,在模型顶部附加多个预测头同时生成多个后续 Token,结合树状注意力验证,实现并行推测解码的大幅加速。
2
0
0
2026-06-14