解决超长文本训练时的显存与计算挑战,学习序列并行、选择性激活检查点和分页优化等工程技术。
探索序列并行技术,将长序列沿序列维度切分到多个设备,结合 Ring Attention 等方法降低注意力计算的显存峰值,训练更长上下文。