免费编程教程

最新
Yi 系列大模型

学习零一万物的 Yi 系列模型,强调其在长上下文处理上的能力,以及面向多语言的先进架构设计。

2 0 0
2026-06-22
最新
大海捞针测试

在长文档中随机插入特定事实,测试模型在各深度和位置上的召回准确性,成为长上下文评测标准。

3 0 0
2026-06-22
最新
YaRN 位置编码

学习 YaRN 同时调整 RoPE 的频率基数和注意力温度,仅需微量微调即可让模型在 128k 甚至更长的上下文上保持准确。

3 0 0
2026-06-22
最新
长上下文扩展技术

综合学习位置插值、NTK 缩放、YaRN 和稀疏注意力等方法,将预训练模型的上下文窗口扩展数倍。

6 0 0
2026-06-22
最新
稀疏注意力 Sparse Attn

学习通过稀疏化注意力矩阵,如局部窗口、空洞窗口和全局标记等方式,显著降低计算量并扩展模型上下文长度。

5 0 0
2026-06-21
最新
序列并行

探索序列并行技术,将长序列沿序列维度切分到多个设备,结合 Ring Attention 等方法降低注意力计算的显存峰值,训练更长上下文。

8 0 0
2026-06-14