最新
多查询注意力 MQA
学习 MQA 让所有 Query 头共享同一套 Key/Value 投影,大幅减少推理时的 KV 缓存,加速自回归生成。
3
0
0
2026-06-22