综述线性注意力机制的基本思想,通过核函数分解或关联内存设计,将标准注意力的 O(n²) 降至 O(n),应对长序列建模。
学习 RWKV 如何将注意力机制改造为线性循环形式,兼具高效并行训练和 O(1) 推理复杂度的优势。