GANomaly 异常检测
剖析 GANomaly 架构,利用生成器-判别器间的特征匹配差异在图像级与像素级定位异常,适用于工业缺陷检测等场景。
孤立森林 iForest
理解孤立森林如何利用随机划分树来快速孤立异常点,因其线性复杂度与良好效果成为高维数据异常检测的常用选择。
KServe 无服务器推理
掌握 KServe 的推理服务抽象,利用自动扩缩、灰度发布、输入解释等特性在 Kubernetes 上搭建弹性、生产级模型推理平台。
BentoML 模型打包
使用 BentoML 将任意框架模型打包为标准化 bento,并通过 BentoServer 和容器一键部署为高性能推理 API,简化工程化流程。
模型服务框架 Seldon Core
学习在 Kubernetes 上使用 Seldon Core 编排模型推理图,支持多组件管道、金丝雀发布、漂移检测与内置解释,实现企业级模型服务。
TensorBoard 可视化
掌握 TensorBoard 完整用法,可视化标量、计算图、嵌入投影和图像等,为 PyTorch 和 TensorFlow 训练提供直观调试途径。
模型监控 WandB
集成 Weights & Biases 到训练脚本中,实现实时指标仪表板、超参数记录、模型版本对比与团队协作报告,提升实验管理效率。
超参数调优 Hyperopt
使用 Hyperopt 库通过 TPE 算法对学习率、层数、Dropout 等超参数进行贝叶斯搜索,自动找到最优配置,提升模型表现。
混合精度训练 AMP
学习自动混合精度训练机制,利用 FP16 或 BF16 计算加速并省内存,通过损失缩放与动态类型转换保持训练数值稳定。
FSDP 全分片数据并行
学习 PyTorch FSDP 的原理与用法,在数据并行中分片模型参数、梯度和优化器状态,并支持多种分片策略以平衡内存与通信。
Megatron-LM 训练框架
解读 NVIDIA Megatron-LM 如何精巧地组合张量并行、流水线并行和数据并行,实现 GPT、T5 等架构的高效万卡级训练。
DeepSpeed 分布式训练
全栈学习微软 DeepSpeed,掌握 ZeRO 优化、通信压缩、混合精度训练和 DeepSpeed-Inference 等特性,低成本训练与部署超大模型。
零冗余优化器 ZeRO
深入 ZeRO 三阶段,学习如何将优化器状态、梯度和模型参数分片到数据并行组,配合 CPU 卸载,近乎消除分布式训练的内存冗余。
OpenVINO LLM 推理
掌握使用 OpenVINO 工具套件在英特尔 CPU、GPU 和 NPU 上优化并部署大语言模型,实现低比特量化与高效推理的最佳实践。
ONNX Runtime LLM
学习使用 ONNX Runtime 针对大语言模型的生成式 API,通过量化与硬件加速适配器,在不同硬件后端高效部署 Llama、Phi 等生成式模型。
TensorRT-LLM
学习使用 TensorRT-LLM 将大模型编译为高度优化的推理引擎,融合算子、量化、张量并行等特性,在 NVIDIA GPU 上获得极致性能。
Triton 推理服务器
深入学习 NVIDIA Triton 推理服务器,配置多模型编排管道、动态批处理、集成 TensorRT 后端,构建高并发、低延迟的 AI 推理服务。
模型推理引擎 TGI
使用 Hugging Face 的 TGI 部署大模型,掌握其内置的连续批处理、张量并行、量化与日志水印等企业级特性,实现高效生产服务。
Ollama 本地部署 LLM
上手 Ollama 工具,在本地用一条命令下载并运行 Llama、Mistral 等模型,学习使用 Modelfile 创建自定义模型并暴露标准 API。
llama.cpp CPU 推理
编译并使用 llama.cpp 在纯 CPU 或混合 Metal/CUDA 环境下高效运行量化大模型,涵盖服务器、命令行和内置 HTTP 服务等模式。
llamafile 单文件分发
学习如何使用 llamafile 将 LLM 权重和运行时打包为单个多平台可执行文件,一键在 Windows、macOS 和 Linux 上运行大模型。
GGML / GGUF 量化格式
了解 GGML 及后继 GGUF 文件格式的设计思想,如何将模型权重打包并支持多级量化,成为 llama.cpp 等 CPU 高效推理的基石。
bitsandbytes 8-bit/4-bit
实践 bitsandbytes 库,通过 LLM.int8()、NF4、双重量化等量化方案在消费级 GPU 上加载并微调超大规模模型,结合 QLoRA 尤佳。
SmoothQuant 平滑量化
了解 SmoothQuant 如何通过数学等效变换将激活中的异常值难度转移到权重,实现无需重训练的 W8A8 量化,保持大模型精度。
AWQ 激活感知量化
学习 Activation-aware Weight Quantization,通过对重要权重通道基于激活分布进行缩放保护,仅优化少量缩放因子实现 SOTA 低比特量化。
前瞻解码 Lookahead Decoding
学习利用雅可比迭代法并行猜测并验证多个未来 Token 的前瞻解码技术,无需草稿模型即可实现无损的生成速度飞跃。
美杜莎头 Medusa 加速
深入 Medusa 架构,在模型顶部附加多个预测头同时生成多个后续 Token,结合树状注意力验证,实现并行推测解码的大幅加速。
推测解码 Speculative Decoding
学习推测解码如何用小模型快速生成草稿,大模型并行验证并接受匹配 Token,在不改变输出的前提下实现数倍推理加速。
连续批处理 Continuous Batching
掌握大模型推理中的连续批处理技术,允许新请求随时加入正在执行的批次,避免传统静态批处理的填充等待,大幅提升服务吞吐。
FlashAttention-2
了解 FlashAttention-2 在前作基础上如何优化并行策略与线程块调度,将 GPU 利用率推至更高,实现近 2 倍的训练与推理加速。
FlashAttention 加速
解析 FlashAttention 如何通过分块计算与重计算技术,在 SRAM 中完成注意力计算,实现内存与速度的双重突破,且数学上完全等价。
PagedAttention 分页注意力
学习 PagedAttention 如何借鉴操作系统分页思想,将 KV 缓存划分为块进行非连续存储,近乎消除内部碎片,革命性提升服务吞吐。
大模型推理加速 vLLM
深入 vLLM 架构,掌握其 PagedAttention 机制如何近似零浪费管理 KV 缓存,并与连续批处理结合,实现比普通推理高数十倍的吞吐量。