RWKV 线性注意力 RNN
学习 RWKV 如何将注意力机制改造为线性循环形式,兼具高效并行训练和 O(1) 推理复杂度的优势。
Mamba 状态空间模型
学习 Mamba 如何引入输入依赖的选择机制,使状态空间模型具备上下文感知能力,实现线性复杂度的序列建模。
长短期记忆 XLSTM
了解 XLSTM 如何在经典 LSTM 基础上引入指数门控和新记忆结构,挑战 Transformer 在序列建模中的地位。
TimesNet 时序二维变
学习 TimesNet 如何通过寻找周期将一维时序数据重塑为二维张量,再用 Inception 模块捕获时间变化和周期内变化。
PatchTST 时间序列 patch
将时间序列切分为子序列 Patch,并使用通道独立策略和自监督预训练,在长期预测中取得 SOTA 性能。
Autoformer 自相关机制
学习 Autoformer 的序列分解架构和自相关替代注意力机制,捕捉时间序列中的趋势、季节性和时延依赖。
时序模型 Informer
学习 Informer 如何通过概率稀疏注意力机制和自注意力蒸馏,在长序列时间序列预测中大幅降低计算复杂度。
RepVGG 重参数化
学习 RepVGG 的重参数化技巧,在训练时使用多分支架构提升精度,在推理时等价合并为简单的 VGG 风格模型。
ConvNeXt 现代卷积网络
将 Transformer 的训练策略与结构设计融入卷积网络,打造 ConvNeXt,纯卷积架构达到与 Transformer 可比肩的性能。
CSWin Transformer
学习 CSWin 的十字形窗口自注意力,通过水平和垂直条纹窗口并行计算,兼顾计算效率和全局建模能力。
Twins Transformer
了解 Twins 架构如何通过空间可分离自注意力结合局部和全局信息,以更低成本实现优异的多尺度视觉表征。
PVT 金字塔 Vision Transformer
学习金字塔 Vision Transformer 如何逐渐降低序列长度并增加通道数,生成多尺度特征,适配检测分割等任务。
Swin Transformer 层级设计
深入 Swin Transformer,学习其移位窗口注意力机制和层级金字塔结构,在下游密集预测任务中展现强大性能。
视觉 Transformer ViT
学习 Vision Transformer 如何将图像切割为固定大小的 Patch,并应用 Transformer 编码器进行全局特征交互。
ShuffleNet 通道混洗
学习 ShuffleNet 如何通过通道混洗打破分组卷积间的信息隔离,在极低计算量下保持良好表征能力。
移动端模型 MobileNet
掌握 MobileNet 系列如何利用深度可分离卷积和线性瓶颈结构,实现移动和嵌入式设备上的实时视觉模型。
高效网络 EfficientNet
学习 EfficientNet 提出的复合缩放方法,同时调整网络宽度、深度和分辨率,在约束资源下获得卓越精度。
正则化 DropBlock
学习 DropBlock 如何丢弃连续区域而非独立单元,强制网络利用剩余区域学习,适合卷积层正则化。
RandAugment 自动增强
学习 RandAugment 的极简自动增强方法,仅需选择操作数量和全局强度,无需复杂搜索即可显著提升性能。
标签平滑 Label Smoothing
将硬目标 one-hot 标签调整为软标签,降低模型对训练标签的信心,提升泛化与模型校准能力。
Stochastic Depth
学习在训练超深残差网络时随机丢弃整层,只在测试时使用完整深度,类似 Dropout 的层级别正则化手段。
Dropout 与变体
回顾 Dropout 原理及其变体如 DropConnect、Spatial Dropout、变分 Dropout,在训练时随机丢弃单元防止过拟合。
权重标准化 Weight Standardization
学习权重标准化技术,通过对卷积层权重施加零均值单位方差约束,结合 GroupNorm 进一步改善优化效果。
实例归一化 InstanceNorm
学习实例归一化如何对单个样本的每个通道独立标准化,剔除样本特有的对比度信息,常用于图像风格迁移。
分组归一化 GroupNorm
针对 BatchNorm 在小批次时失效的问题,学习分组归一化如何将通道分组进行标准化,在检测和分割任务中表现稳定。
层归一化 LayerNorm
学习层归一化如何在特征维度上标准化,不依赖于批次大小,成为 NLP 和 Transformer 架构的标配组件。
批归一化 BatchNorm
深入批归一化的前向与反向计算,理解其缓解内部协变量偏移、允许更大学习率的机制及其微正则化效应。
LAMB / LARS 大 batch 优化
学习针对大批次训练设计的 LARS 和 LAMB 优化器,利用分层自适应学习率稳定训练超大批次模型。
优化器变种 AdamW
了解 AdamW 如何将权重衰减与梯度自适应更新解耦,避免 Adam 中 L2 正则化与学习率的耦合问题,提升泛化。
Dice Loss 分割
学习 Dice 系数及其损失函数,直接优化预测分割图与真实掩码的重叠区域,处理强类不平衡分割任务。
焦点损失 Focal Loss
学习 Focal Loss 如何通过调制因子降低已正确分类样本的损失贡献,引导模型专注于困难样本。
Circle Loss
理解 Circle Loss 如何通过统一的决策边界优化类内相似度和类间差异,提升细粒度图像检索性能。
Proxy NCA 损失
学习 Proxy NCA 损失,使用可学习的代理向量近似真实样本分布,避免直接配对计算,加快收敛。
数值计算稳定 softmax
学习数值稳定 softmax 的原理,使用最大值减法技巧避免上溢/下溢,以及在交叉熵损失中的 LogSumExp 技巧。
XLA 加速线性代数
学习 XLA 如何将计算图编译为优化的 HLO 内核,通过算子融合和内存优化加速 TensorFlow 和 JAX 中的线性代数运算。
模型效率基准 MLPerf
了解 MLPerf Training 和 Inference 基准,比较不同硬件与框架的模型训练时间和推理延迟,指导平台选型。