最新
最新
最新
Ray Serve 部署
使用 Ray Serve 将 ML 模型封装为服务,支持在线更新、流量拆分和自动扩缩,与 Ray 训练无缝对接。
2
0
0
2026-06-29
最新
最新
OneFlow 一致性视角
了解 OneFlow 如何通过 SBP 一致性签名提供逻辑上单卡的编程体验,自动实现高效的分布式训练。
1
0
0
2026-06-29
最新
最新
Mesh-TensorFlow
学习用 Mesh-TensorFlow 将计算映射到多维处理器网格,统一表达数据、模型和流水线并行。
2
0
0
2026-06-28
最新
最新
Volcano 调度器
学习为 AI 和大数据设计的 Volcano 调度器,支持 Gang Scheduling、队列管理和公平共享,优化训练任务调度。
2
0
0
2026-06-28
最新
资源管理 Kubernetes for AI
使用 Kubernetes 管理机器学习工作负载,包括训练 Job、推理 Service 和自动扩缩容,实现云原生 AI 平台。
3
0
0
2026-06-28
最新
梯度压缩 1-bit SGD
实践 1-bit SGD 压缩,仅传输梯度的符号并通过误差反馈补偿精度损失,大幅减少通信量。
2
0
0
2026-06-28
最新
Ring-AllReduce
学习 Ring-AllReduce 算法如何使每个节点的通信量恒定,实现带宽利用最优的分布式训练同步。
2
0
0
2026-06-28
最新
AllReduce 通信
详解 AllReduce 算法(Ring、Tree、Recursive Halving),在梯度同步中的应用及 NCCL 优化。
1
0
0
2026-06-28