最新
XLA 加速线性代数
学习 XLA 如何将计算图编译为优化的 HLO 内核,通过算子融合和内存优化加速 TensorFlow 和 JAX 中的线性代数运算。
6
0
0
2026-06-21
最新
最新
DeepSpeed 分布式训练
全栈学习微软 DeepSpeed,掌握 ZeRO 优化、通信压缩、混合精度训练和 DeepSpeed-Inference 等特性,低成本训练与部署超大模型。
6
0
0
2026-06-14
最新
最新