免费编程教程

最新
美杜莎头 Medusa 加速

深入 Medusa 架构,在模型顶部附加多个预测头同时生成多个后续 Token,结合树状注意力验证,实现并行推测解码的大幅加速。

2 0 0
2026-06-14
最新
推测解码 Speculative Decoding

学习推测解码如何用小模型快速生成草稿,大模型并行验证并接受匹配 Token,在不改变输出的前提下实现数倍推理加速。

2 0 0
2026-06-14