免费编程教程

最新
缓存 KV Cache 管理

优化键值缓存的显存分配策略,实现缓存淘汰、压缩和多请求共享,在有限显存下服务更长上下文。

3 0 0
2026-06-29
最新
负载均衡 LLM

使用网关或反向代理将大模型推理请求均衡地分发到多个推理实例,配合健康检查和会话保持。

2 0 0
2026-06-29
最新
优先级队列

在推理服务中实现基于优先级的排队,高优请求可插队或抢占资源,确保核心业务体验。

3 0 0
2026-06-29
最新
请求调度策略

设计模型服务端的请求调度算法,平衡不同用户和任务对延迟及吞吐的需求,保证服务质量。

2 0 0
2026-06-29
最新
动态批处理

在推理服务端等待一小段时间将多个请求打包为一个批次处理,在增加少量延迟下大幅提升吞吐量。

2 0 0
2026-06-29
最新
多模型服务

学习在有限 GPU 资源上同时部署多个不同模型,通过显存管理和算力切分实现多租户推理。

3 0 0
2026-06-29
最新
Triton 模型编排

在 Triton 推理服务器上编排多模型处理流程,包括图像预处理、模型串联和后处理,实现一站式推理。

3 0 0
2026-06-29
最新
Ray Serve 部署

使用 Ray Serve 将 ML 模型封装为服务,支持在线更新、流量拆分和自动扩缩,与 Ray 训练无缝对接。

2 0 0
2026-06-29
最新
大模型服务引擎

比较主流的大模型推理服务引擎在吞吐、延迟、灵活性和生态上的差异,为技术选型提供依据。

1 0 0
2026-06-29
最新
GPU 机密计算

了解最新 GPU 的硬件级机密计算能力,在 GPU 显存中对数据和模型进行加密隔离,保护推理安全。

3 0 0
2026-06-29
最新
可信执行推理

将模型推理放在硬件隔离的可信执行环境中,保证模型和数据对云服务商等特权方的不可见性。

1 0 0
2026-06-29
最新
加密模型推理

利用同态加密和多方安全计算实现输入数据加密且模型参数加密下的推理,保护全链路隐私。

3 0 0
2026-06-29
最新
安全模型分发

对模型文件进行加密和数字签名,确保模型在分发和下载过程中未被篡改且来源可信。

2 0 0
2026-06-29
最新
模型序列化优化

对比各种模型序列化格式,优化模型文件的存储布局和反序列化速度,加快模型加载和传输。

2 0 0
2026-06-29
最新
哈夫曼编码压缩

根据权重或量化后码字出现的频率,使用哈夫曼编码对模型进行无损压缩,进一步减少文件尺寸。

2 0 0
2026-06-29
最新
权重共享技术

将相似权重聚类并用同一个值替换或通过哈希映射共享,大幅降低模型存储开销。

2 0 0
2026-06-29
最新
通道级量化

对卷积层的每个通道使用独立的缩放因子和零点,比层级别量化更精细地保留分布,提升量化精度。

2 0 0
2026-06-29
最新
动态量化

在推理时动态计算激活的量化参数,权重提前量化,适合批处理较少的在线推理场景。

2 0 0
2026-06-29
最新
训练后量化 PTQ

对已训练好的模型直接进行量化,仅需少量校准数据调整,快速获得压缩模型,适合无训练资源场景。

2 0 0
2026-06-29
最新
量化感知训练 QAT

在训练过程中插入伪量化节点,模拟推理时的量化误差,使模型提前适应低精度,获取更高的量化精度。

3 0 0
2026-06-29
最新
校准集选择

学习如何从训练数据中挑选最具代表性的子集作为校准数据,以最大化后训练压缩或蒸馏的效果。

2 0 0
2026-06-29
最新
稀疏专家更新

在混合专家模型中只对新知识相关的少数专家进行增量更新,实现高效的知识注入且不影响其他领域。

1 0 0
2026-06-29
最新
知识局部修改

利用 LoRA 等低秩更新仅在模型局部参数中注入或修改特定概念,使模型快速适配新知识。

1 0 0
2026-06-29
最新
事实更新

使用神经元定位或元学习技术,只修改模型中对特定错误知识的编码,让模型回答正确的信息。

1 0 0
2026-06-29
最新
模型编辑技术

学习在不重新训练的情况下,对大语言模型中的特定事实或行为进行精准的插入、修改和删除。

2 0 0
2026-06-29
最新
持续学习与适配

综述持续学习领域的方法与权衡,在稳定性与可塑性之间设计算法,让模型不断学习新任务。

1 0 0
2026-06-29
最新
数据回放重训练

将旧任务的部分样本存储在回放缓冲区中,在新任务训练时混入以防止对旧知识的灾难性遗忘。

1 0 0
2026-06-29
最新
OneFlow 一致性视角

了解 OneFlow 如何通过 SBP 一致性签名提供逻辑上单卡的编程体验,自动实现高效的分布式训练。

1 0 0
2026-06-29
最新
GSPMD 统一并行

理解 GSPMD 如何用同一套分片标注语法统一表达数据、张量和流水线并行,并被 XLA 编译器支持。

1 0 0
2026-06-29
最新
Mesh-TensorFlow

学习用 Mesh-TensorFlow 将计算映射到多维处理器网格,统一表达数据、模型和流水线并行。

2 0 0
2026-06-28
最新
自动并行化

利用 GSPMD、OneFlow 等提供的能力,让框架自动完成模型到多设备的切分和通信插入,减少手工配置。

1 0 0
2026-06-28
最新
模型并行策略搜索

使用自动并行搜索工具或算法,为给定模型和集群拓扑找到张量、流水线和数据并行的最佳组合。

4 0 0
2026-06-28
最新
激活检查点

只保存部分中间激活,在反向传播时临时重计算,以增加少量计算换取大幅显存节省。

3 0 0
2026-06-28
最新
内存优化技巧

综合应用梯度检查点、CPU 卸载、混合精度训练和优化器状态分片,突破 GPU 显存限制。

3 0 0
2026-06-28
最新
分布式训练调试

学习排查分布式训练中常见的问题,如集合通信挂起、同步不一致和显存溢出,使用工具和策略快速解决。

1 0 0
2026-06-28
最新
训练日志分析

自动化解析训练日志,检测损失突刺、学习率震荡等异常,辅助调试并生成训练报告。

2 0 0
2026-06-28
最新
训练指标监控

在训练过程中实时监控模型和系统指标,设置梯度范数、损失震荡和 GPU 温度的预警,及时干预异常。

4 0 0
2026-06-28
最新
模型训练可观测性

构建模型训练的可观测性体系,使用 Prometheus、Grafana 收集 GPU 利用率和损失曲线,并实现分布式追踪。

3 0 0
2026-06-28
最新
Spot / 抢占实例训练

在云平台使用可被随时回收的廉价计算实例进行训练,并通过检查点和弹性恢复保证训练任务完成。

2 0 0
2026-06-28
最新
成本控制训练

在云平台或本地集群中设置训练成本预算和告警,利用混合精度、停止策略和资源共享降低总体花费。

3 0 0
2026-06-28
最新
训练作业排队

设计训练作业的优先级排队策略,按团队、任务紧急度分配资源,并实现资源预留保证关键任务。

3 0 0
2026-06-28
最新
Volcano 调度器

学习为 AI 和大数据设计的 Volcano 调度器,支持 Gang Scheduling、队列管理和公平共享,优化训练任务调度。

2 0 0
2026-06-28
最新
资源管理 Kubernetes for AI

使用 Kubernetes 管理机器学习工作负载,包括训练 Job、推理 Service 和自动扩缩容,实现云原生 AI 平台。

3 0 0
2026-06-28
最新
GPU 集群调度

使用 Kubernetes、Slurm 等工具管理共享 GPU 集群,实现公平调度、抢占和装箱策略,提升资源利用率。

2 0 0
2026-06-28
最新
云上训练优化

在 AWS、Azure 等云平台上优化训练任务,选择适合的 GPU 实例,利用竞价实例和自动扩缩容降低训练成本。

3 0 0
2026-06-28
最新
跨数据中心训练

应对跨数据中心的高延迟和低带宽挑战,采用分层同步、压缩和异步策略实现广域分布式训练。

7 0 0
2026-06-28
最新
模型检查点策略

设计检查点保存频率和内容,结合验证损失最佳点保存、周期性保存和训练中断触发保存。

3 0 0
2026-06-28
最新
训练恢复

学习如何正确恢复包括模型参数、优化器动量和学习率调度器状态在内的完整训练状态。

1 0 0
2026-06-28
最新
容错训练机制

实现训练任务在遇到节点故障、网络中断等问题时能够从保存的检查点恢复,并继续训练。

3 0 0
2026-06-28
最新
弹性训练

让分布式训练任务能够动态适应可用节点数量的变化,在节点加入或离开时自动重平衡。

2 0 0
2026-06-28
最新
异构计算训练

处理训练集群中不同算力设备的异构性,动态分配工作量,使快慢节点都能高效参与分布式训练。

6 0 0
2026-06-28
最新
通信与计算重叠

利用 CUDA 流或后台线程将梯度通信与下一层的计算重叠,让通信几乎不产生额外耗时。

1 0 0
2026-06-28
最新
梯度压缩 1-bit SGD

实践 1-bit SGD 压缩,仅传输梯度的符号并通过误差反馈补偿精度损失,大幅减少通信量。

2 0 0
2026-06-28
最新
Ring-AllReduce

学习 Ring-AllReduce 算法如何使每个节点的通信量恒定,实现带宽利用最优的分布式训练同步。

2 0 0
2026-06-28
最新
参数服务器架构

掌握参数服务器的工作机制,对比同步、异步和混合式梯度更新策略,处理大规模稀疏模型训练。

2 0 0
2026-06-28
最新
AllReduce 通信

详解 AllReduce 算法(Ring、Tree、Recursive Halving),在梯度同步中的应用及 NCCL 优化。

1 0 0
2026-06-28
最新
分布式模型训练优化

系统地分析和优化分布式训练的性能瓶颈,包括通信带宽、计算效率和显存占用的权衡。

1 0 0
2026-06-28
最新
联邦推荐系统进阶

进阶联邦推荐,处理用户多域行为序列,结合本地差分隐私和纵向联邦实现全面的隐私保护推荐。

1 0 0
2026-06-28
最新
联邦图学习

在分布在各机构的图数据上训练 GNN,通过联邦学习保护图结构和节点特征的隐私。

1 0 0
2026-06-28
最新
纵向联邦特征工程

在纵向联邦学习场景下,加密地进行 IV 值计算、特征分箱和选择,安全利用多方数据。

1 0 0
2026-06-28