在推理时根据当前序列长度动态调整 RoPE 的缩放因子,实现更灵活的上下文窗口扩展,兼具性能与外推。
基于神经正切核理论,NTK 感知缩放对 RoPE 的不同频率维度施以不同缩放因子,更好地保留高频细节,扩展上下文。
学习位置插值方法,直接对 RoPE 的位置索引进行线性缩放,将长距离“压缩”到原始上下文范围,实现快速扩展。
深入 RoPE 的数学原理,学习它如何通过旋转变换将相对位置信息融入到注意力的内积中,支持良好外推。