最新
美杜莎头 Medusa 加速
深入 Medusa 架构,在模型顶部附加多个预测头同时生成多个后续 Token,结合树状注意力验证,实现并行推测解码的大幅加速。
2
0
0
2026-06-14
最新
推测解码 Speculative Decoding
学习推测解码如何用小模型快速生成草稿,大模型并行验证并接受匹配 Token,在不改变输出的前提下实现数倍推理加速。
2
0
0
2026-06-14