免费编程教程

最新
模型并行张量并行

学习张量并行的原理,如何将 Transformer 层内的权重矩阵按列或行切分到多个 GPU,减少单卡显存占用并实现更大模型训练。

7 0 0
2026-06-14