免费编程教程

全部标签 Python 自动化系统设计可视化开源安全 Java Android 隐私架构性能微调

最新

分组查询注意力 GQA

在 MHA 和 MQA 之间折中，将 Query 头分组共享 KV，以较少质量损失换取显著推理加速，成为 Llama 2 等模型标配。

人工智能 GQA 注意力推理加速

3 0 0

2026-06-22

最新

多查询注意力 MQA

学习 MQA 让所有 Query 头共享同一套 Key/Value 投影，大幅减少推理时的 KV 缓存，加速自回归生成。

人工智能 MQA 推理加速 KV缓存

3 0 0

2026-06-22

最新

前瞻解码 Lookahead Decoding

学习利用雅可比迭代法并行猜测并验证多个未来 Token 的前瞻解码技术，无需草稿模型即可实现无损的生成速度飞跃。

人工智能前瞻解码并行生成推理加速

1 0 0

2026-06-14

最新

推测解码 Speculative Decoding

学习推测解码如何用小模型快速生成草稿，大模型并行验证并接受匹配 Token，在不改变输出的前提下实现数倍推理加速。

人工智能推测解码推理加速投机采样

1 0 0

2026-06-14

最新

大模型推理加速 vLLM

深入 vLLM 架构，掌握其 PagedAttention 机制如何近似零浪费管理 KV 缓存，并与连续批处理结合，实现比普通推理高数十倍的吞吐量。

人工智能 vLLM 推理加速吞吐量

2 0 0

2026-06-14