最新
分组查询注意力 GQA
在 MHA 和 MQA 之间折中,将 Query 头分组共享 KV,以较少质量损失换取显著推理加速,成为 Llama 2 等模型标配。
3
0
0
2026-06-22