学习 YaRN 同时调整 RoPE 的频率基数和注意力温度,仅需微量微调即可让模型在 128k 甚至更长的上下文上保持准确。
学习 ALiBi 如何直接在注意力分数上加一个随距离递减的线性偏置,无需学习复杂位置编码即可实现上下文外推。
深入 RoPE 的数学原理,学习它如何通过旋转变换将相对位置信息融入到注意力的内积中,支持良好外推。
综合学习位置插值、NTK 缩放、YaRN 和稀疏注意力等方法,将预训练模型的上下文窗口扩展数倍。