MMBench 评测
学习使用 MMBench 对多模态模型进行评估,其覆盖 20 个能力维度,以选择题形式衡量模型的视觉理解。
医疗大模型 HuatuoGPT
了解 HuatuoGPT 如何利用大量医学文献和对话数据进行训练,在医疗咨询和辅助诊断中表现突出。
WizardMath 数学微调
学习 WizardMath 如何利用进化式指令数据增强,提升开源模型在 GSM8k 和 MATH 等数学基准上的表现。
DeepSeek-Coder
学习 DeepSeek-Coder 系列在代码生成和补全上的能力,特别是仓库级代码理解与填充。
StarCoder 代码生成
了解 StarCoder 与 StarCoder2,学习其基于 Stack 数据集的训练过程以及多语言代码生成与填充功能。
Code Llama 实践
学习使用 Meta 开源的 Code Llama 系列,掌握其代码填充能力、多种规模选择及本地推理部署。
QLoRA 微调完整流程
从零开始实践 QLoRA 微调,涵盖 4-bit 量化加载、LoRA 配置、训练监控,以及训练后权重合并与导出。
多 GPU 微调技巧
学习利用 DeepSpeed ZeRO 和 PyTorch FSDP 将微调扩展到多卡,处理显存与通信瓶颈,训练更大模型。
Firefly 微调框架
学习 Firefly 框架,支持 QLoRA 和全量微调,专注于中文大模型的增量预训练与指令微调,资源友好。
LLaMA-Factory 微调框架
掌握 LLaMA-Factory 的使用,通过 Web 界面或命令行对上百种模型进行 LoRA、QLoRA 等微调,降低门槛。
使用 Axolotl 微调
使用 Axolotl 框架通过 YAML 配置文件轻松微调 Llama、Mistral 等模型,支持 QLoRA、全参数等多种模式。
Gemini 多模态模型
学习谷歌 Gemini 系列,理解其原生多模态设计,无缝处理文本、图像、音频和视频,与长达百万 Token 的上下文窗口。
Claude 模型使用
学习 Anthropic 的 Claude 模型,掌握其 API 使用、超长上下文能力和宪法 AI 训练带来的独特安全特性。
通义千问 Qwen-VL
深入 Qwen-VL 架构,学习其如何将视觉编码与大语言模型结合,实现图像描述、问答和视觉定位等多模态能力。
Baichuan 大模型
学习百川智能开源的 Baichuan 系列模型,了解其在中文 NLP 任务上的表现、模型架构及微调应用。
DeepSeek MoE 架构
学习 DeepSeek 提出的混合专家架构,结合细粒度专家和共享专家,在提升模型容量同时控制计算成本。
软混合专家 Soft MoE
学习 Soft MoE 如何将 Token 以连续权重分配给所有专家,并先合并输入再分派,在完全可微分的同时更易训练。
混合专家 MoE 深入
深入 MoE 架构,解析 Top-K 路由、专家负载均衡损失和容量因子的设计,实现参数总量巨大但计算量恒定的大模型。
ALiBi 线性偏置
学习 ALiBi 如何直接在注意力分数上加一个随距离递减的线性偏置,无需学习复杂位置编码即可实现上下文外推。
FlashDecoding 加速
针对 FlashAttention 在解码阶段利用率低的问题,学习 FlashDecoding 如何并行处理长 KV 序列以加速生成。
分组查询注意力 GQA
在 MHA 和 MQA 之间折中,将 Query 头分组共享 KV,以较少质量损失换取显著推理加速,成为 Llama 2 等模型标配。
多查询注意力 MQA
学习 MQA 让所有 Query 头共享同一套 Key/Value 投影,大幅减少推理时的 KV 缓存,加速自回归生成。
稀疏注意力 Sparse Attn
学习通过稀疏化注意力矩阵,如局部窗口、空洞窗口和全局标记等方式,显著降低计算量并扩展模型上下文长度。
RetNet 保留网络
学习 RetNet 如何将注意力机制替代为多尺度保留机制,实现 Transformer 式的并行训练与 RNN 式的 O(1) 高效推理。
RWKV 线性注意力 RNN
学习 RWKV 如何将注意力机制改造为线性循环形式,兼具高效并行训练和 O(1) 推理复杂度的优势。
Mamba 状态空间模型
学习 Mamba 如何引入输入依赖的选择机制,使状态空间模型具备上下文感知能力,实现线性复杂度的序列建模。
长短期记忆 XLSTM
了解 XLSTM 如何在经典 LSTM 基础上引入指数门控和新记忆结构,挑战 Transformer 在序列建模中的地位。
TimesNet 时序二维变
学习 TimesNet 如何通过寻找周期将一维时序数据重塑为二维张量,再用 Inception 模块捕获时间变化和周期内变化。
PatchTST 时间序列 patch
将时间序列切分为子序列 Patch,并使用通道独立策略和自监督预训练,在长期预测中取得 SOTA 性能。
Autoformer 自相关机制
学习 Autoformer 的序列分解架构和自相关替代注意力机制,捕捉时间序列中的趋势、季节性和时延依赖。