TPU 架构：谷歌张量处理器的矩阵加速之道

FreeGuideOnline 最新 2026-06-20

什么是 TPU？为什么需要它？

TPU 全称 张量处理器，是谷歌专为加速张量运算而设计的专用集成电路 (ASIC)。在一个 CPU 和 GPU 难以满足超大模型训练和推理需求的时代，TPU 以更极致的矩阵乘法吞吐量和能效比，成为了深度学习规模化落地的关键硬件。

如果把 CPU 比作通才，GPU 比作图形与并行计算专才，那么 TPU 就是为 矩阵乘法和卷积 而生的极致专才。它的出现，直接回答了“如何用更少功耗，更快地处理神经网络中的大规模线性代数运算”这一核心问题。

TPU 的发展历程

TPU v1：2015 年首次披露，仅用于推理，专攻 8 位整数运算。它直接读取模型权重，大幅降低了数据中心的延迟与功耗。
TPU v2：2017 年发布，支持训练和推理，引入浮点计算与高带宽内存 (HBM)，并开始提供 Cloud TPU 服务。
TPU v3：2018 年推出，将算力提升至 v2 的约 2 倍，引入液冷散热，进一步强化了大规模集群训练能力。
TPU v4 & v4i：2021 年亮相，采用光学电路开关连接，支持 4096 个芯片规模的超级计算机，能效飞跃。
TPU v5p：2023 年推出，训练性能进一步翻倍，单芯片算力与互联带宽大幅增长，专门针对大语言模型与推荐系统优化。

TPU 架构核心：矩阵加速的设计哲学

TPU 之所以能在特定负载下超越 GPU，根本原因在于其架构是围绕 脉动阵列 构建的，并配以极简的控制逻辑与专用内存层级。这种设计剥离了 GPU 中用于图形渲染的组件，将所有晶体管集中投入到张量操作中。

脉动阵列：TPU 的运算心脏

脉动阵列是 TPU 矩阵加速的绝对核心。它是一个由大量乘加单元 (MAC) 组成的规则网格，数据在阵列中如同心跳般有节奏地“泵送”。

工作原理：权重从一个方向流入，激活值从另一个方向流入，两者在交叉点完成乘法并沿行方向累加。数据流动过程不需要复杂的缓存和寄存器索引，避免了大量的取指和调度开销。
结果：每个时钟周期可以完成一次大规模的矩阵乘法部分和计算。一个典型的 Cloud TPU v2 芯片拥有 128×128 的脉动阵列，意味着单个周期就能完成一万六千多次乘加运算。
优势对比：GPU 通过大量独立核心调度线程来隐藏延迟，而脉动阵列让数据流动精确可控，无需复杂的缓存一致性协议，面积效率和能效比远超传统架构。

精简的指令集与确定性执行

TPU 采用 CISC 风格 的定制指令集，指令直接控制大规模数据块的搬移和运算，而非像 GPU 那样管理成千上万个线程。主机只负责发送指令，TPU 内部没有复杂的乱序执行和分支预测单元，执行路径完全可预测。

这种确定性使得性能分析极为简单，编译器可以精确编排每个操作的时间线，确保脉动阵列始终处于满载状态，没有 GPU 中常见的线程分支发散或缓存缺失停顿。

显存与内存子系统的深度定制

高带宽内存 (HBM)：从 v2 开始，TPU 即采用 HBM 堆叠内存，直接封装在芯片旁，提供 TB/s 级别的带宽，远超过同期 GPU 的显存带宽。
软件管理的片上存储器：取代了传统硬件缓存，转而使用由编译器显式控制的暂存缓冲区。这彻底消除了缓存未命中的不确定性，让数据搬移与运算完全重合，进一步压缩延迟。
权重驻留：在推理场景中，模型所有权重可预先加载到 TPU 的内存中，并被脉动阵列源源不断地读取，无需从 CPU 或外部存储反复搬运数据。

TPU 的核心优势：不仅仅是速度

TPU 带来的价值体现在四个维度：超高吞吐、极致能效、线性扩展和简化编程。

超高的矩阵乘法吞吐量

以 Google TPU v3 为例，单芯片每个周期可完成 128x128 BP16 乘加，峰值达 420 TFLOPS。这对于由大量全连接层和注意力机制构成的 Transformer 模型来说，几乎完美匹配。在相同的云端预算下，大型语言模型的训练时间可以成倍缩短。

能效比的重大突破

由于去除了通用计算单元、纹理单元、光栅化管线等与深度学习无关的电路，TPU 的每瓦特性能显著领先。对于需要数万芯片运行数周的超大规模训练任务，能效直接转化为巨大的电费与碳排放节省。

线性级别的扩展能力

TPU 从设计之初就考虑了集群互联。通过高速的芯片间互联 (ICI) 和光电路交换机，数十到上万个 TPU 可以构成一个巨型虚拟处理器。这种扩张几乎没有性能瓶颈，使得训练像 PaLM、Gemini 这样的万亿参数模型成为可能。

与 TensorFlow / JAX 的深度协同

TPU 不直接面向手工汇编，而是通过 TensorFlow 和 JAX 提供极高层级的抽象。开发者只需关注模型定义，XLA 编译器会自动将计算图转换为适合 TPU 的优化指令，包括自动向量化、算子融合和最优的内存布局。这种软硬协同大大降低了使用门槛。

使用 TPU 的典型场景

大规模语言模型训练与推理

从 BERT 到 GPT 系列，再到 Gemini，TPU 是大语言模型 (LLM) 的首选硬件之一。其超大批次处理能力与几乎无限的互联扩展性，让千亿乃至万亿参数模型的预训练成为常态。

图像与视频模型

扩散模型、视觉 Transformer 等任务需要处理海量图像或视频帧，TPU 的卷积与注意力加速能力同样非常显著，尤其在批量生成场景下。

AlphaFold 等科学计算

蛋白质结构预测等科学 AI 模型同样以 Transformer 和等变网络为主，TPU 的高吞吐量使原本需要数月的工作缩短到数小时。

总结：理解 TPU，就是理解 AI 算力的未来走向

TPU 不是要替代 CPU 或 GPU，而是在深度学习这个特定领域开辟了一条“专用为王”的路径。它的成功启示我们：当 AI 模型结构日益收敛于 Transformer 及其变种时，硬件设计将与算法形成前所未有的紧密闭环。

学习 TPU 架构，本质上是学习如何将领域特化的思想应用到计算系统中：用脉动阵列构建计算单元，用软件管理的显存消除缓存不确定性，用精简控制换取绝对效率，用编译器与系统协同实现线性扩展。

当你理解了 TPU 如何用一张张脉动阵列的“计算布”编织出超大模型所需的海量运算时，也就掌握了当代 AI 基础设施中最为精妙的一环。