免费编程教程

最新
分组查询注意力 GQA

在 MHA 和 MQA 之间折中,将 Query 头分组共享 KV,以较少质量损失换取显著推理加速,成为 Llama 2 等模型标配。

3 0 0
2026-06-22