最新
分组查询注意力 GQA
在 MHA 和 MQA 之间折中,将 Query 头分组共享 KV,以较少质量损失换取显著推理加速,成为 Llama 2 等模型标配。
3
0
0
2026-06-22
最新
多查询注意力 MQA
学习 MQA 让所有 Query 头共享同一套 Key/Value 投影,大幅减少推理时的 KV 缓存,加速自回归生成。
3
0
0
2026-06-22
最新
前瞻解码 Lookahead Decoding
学习利用雅可比迭代法并行猜测并验证多个未来 Token 的前瞻解码技术,无需草稿模型即可实现无损的生成速度飞跃。
1
0
0
2026-06-14
最新
推测解码 Speculative Decoding
学习推测解码如何用小模型快速生成草稿,大模型并行验证并接受匹配 Token,在不改变输出的前提下实现数倍推理加速。
1
0
0
2026-06-14
最新
大模型推理加速 vLLM
深入 vLLM 架构,掌握其 PagedAttention 机制如何近似零浪费管理 KV 缓存,并与连续批处理结合,实现比普通推理高数十倍的吞吐量。
2
0
0
2026-06-14