最新
稀疏注意力 Sparse Attn
学习通过稀疏化注意力矩阵,如局部窗口、空洞窗口和全局标记等方式,显著降低计算量并扩展模型上下文长度。
5
0
0
2026-06-21