GPU 机密计算:NVIDIA H100 的安全推理新范式
GPU 机密计算:NVIDIA H100 的安全推理新范式
本教程将带你理解一个正在重塑 AI 安全格局的前沿技术——GPU 机密计算,以 NVIDIA H100 为例,解析它如何实现“数据不出域、算法不泄露”的安全推理范式。无论你是安全工程师、AI 基础设施负责人,还是对大模型部署安全有兴趣的学习者,这篇文章都将为你揭开技术全貌。
什么是机密计算?
机密计算是一种硬件级安全技术,它通过构建一个基于硬件的可信执行环境(TEE),保护正在使用中的数据(data in use)。传统加密方案通常只保护静止数据(存储)和传输数据(网络),但 CPU/GPU 在处理数据时,内存中的数据仍是明文形态。如果宿主机操作系统、Hypervisor 甚至云管理员被攻破,内存中的敏感数据就可能被窃取。
机密计算的核心原则是:
- 隔离与加密:将敏感工作负载封装在安全的飞地(Enclave)中,飞地内存被硬件加密,外部进程、操作系统、虚拟机管理器都无法访问。
- 远程证明:提供加密签名校验,让用户可以向硬件平台请求一份可验证的证据,确保飞地运行在真实的 TEE 环境中,且代码未被篡改。
为什么 GPU 需要机密计算?
AI 推理正在处理越来越多的敏感数据——从医疗影像、金融交易记录到生物特征信息。大语言模型(LLM)自身也属于高价值知识资产。在云环境中部署推理时,风险尤为突出:
- 模型权重可能被云基础设施内部人员复制或窃取。
- 用户输入数据(如医疗咨询、法律文书)可能在 GPU 处理期间暴露。
- 合规要求(如 GDPR、HIPAA)禁止数据未经保护地在第三方环境中被计算。
CPU 侧的机密计算(如 Intel SGX、AMD SEV、ARM CCA)已发展多年,但 AI 工作负载的主力计算都在 GPU 上。若 GPU 缺少硬件信任根,整个推理流程的安全链条就会断裂。因此,GPU 机密计算成为构建端到端安全 AI 服务的关键拼图。
NVIDIA H100 的机密计算架构:Hopper 机密计算
NVIDIA 从 Hopper 架构(H100)开始,正式引入原生 GPU 机密计算能力。其核心组件包括:
1. 机密计算模式(CC Mode)
H100 可以配置为“机密计算模式”,在此模式下:
- GPU 内存完全加密:所有片外 HBM 和片内缓存数据均由硬件 AES-256-GCM 加密引擎保护,密钥在 GPU 内部生成且永不飞出芯片。
- PCIe 链路加密:GPU 与 CPU 之间的数据传输使用内嵌的加密引擎,保护经由 PCIe 总线的数据流。
- 安全启动与证明:GPU 内置硬化的信任根,支持安全固件启动和基于 SPDM 协议的远程证明。
2. 受保护的 PCIe 接口
在传统架构中,CPU 可以自由读取映射到其地址空间的 GPU 显存。H100 机密计算模式下,GPU 将分配给飞地进程的显存标记为“CPU 不可见”,CPU 只能看到加密的密文或根本无法直接寻址。CPU 发起的 DMA 攻击从此失效。
3. 与 CPU TEE 的协同
H100 需要与支持机密计算的 CPU 环境搭配,实现全栈可信。官方方案是与 AMD EPYC(SEV-SNP)或 Intel Xeon(TDX)协同工作:
- CPU 侧启动一个 CVM(机密虚拟机),该虚拟机内的应用程序通过特殊的 GPU 驱动与 H100 通信。
- 将 GPU 上下文绑定到该 CVM,任何其他虚拟机或宿主机都无法访问该上下文内的 GPU 资源。
- 双向证明:CPU TEE 和 GPU TEE 相互验证身份,建立起端到端的加密通道。
安全推理流水线:从输入到输出全加密
让我们看看在 H100 机密计算环境中,一个推理请求是如何被安全处理的:
- 部署与证明:模型提供方将 AI 模型加密打包,并在 CVM 中启动推理服务。启动过程中,H100 执行安全启动,生成包含硬件身份和固件度量值的证明报告。同时 CPU TEE 也生成自己的证明。
- 远程证明验证:数据/模型所有者使用远程证明服务验证 GPU 和 CPU 的可信性,确认平台是真正的机密计算环境,且运行的推理代码无误。
- 密钥分发与解密:验证通过后,密钥管理服务通过安全通道将解密密钥注入 CVM,解密模型数据并加载到 GPU 的加密内存中。整个过程中,模型权重在显存中始终保持加密或处于硬件保护的明文状态。
- 推理计算:用户发送加密的推理请求(可通过 TLS 加密,也可端到端加密)。请求进入 CVM 后解密,传至 GPU 进行处理。GPU 在片内计算时,数据可能短暂处于明文,但外部总线、显存转储均为密文。
- 加密响应返回:推理结果在 GPU 内加密并通过受保护的通道返回给用户,整个路径上数据从未以明文形式暴露在不可信的基础设施上。
这样,即使是云服务提供商也无法看到用户的输入数据、模型中间计算或者最终输出。
关键创新与优势
- 硬件强制隔离:与传统软件加密方案(如应用层加密库)不同,H100 的机密计算将安全边界下沉到 GPU 硬件,消除了对操作系统和驱动层的信任依赖。
- 零信任证明:远程证明让模型所有者和用户可以在部署前验证执行环境,实现“先验证,后解密”,这在多方联合推理场景中至关重要。
- 性能接近原生:由于加密引擎完全硬件化,推理吞吐量和延迟损耗通常在个位数百分比内,远低于基于同态加密或安全多方计算的方案。
- 无缝云集成:主流云厂商(如 Azure、OCI)已推出基于 H100 的机密 GPU 实例,开发者几乎无需修改 AI 应用代码,只需选用支持机密计算的平台镜像即可。
典型应用场景
| 场景 | 价值 |
|---|---|
| 医疗 AI | 医院上传未脱敏的 CT 影像进行辅助诊断,云平台无法接触原始影像。 |
| 金融风控 | 银行使用第三方反欺诈模型,模型提供方不想泄露算法,银行不想泄露交易数据,双方在机密计算中达成合作。 |
| 大模型 MaaS | 云厂商提供 GPT 级模型 API,但需向模型开发者证明客户数据未泄露,机密推理可同时保护模型和提示词。 |
| 多方数据联邦 | 多家企业联合训练或推理时,将数据和模型集中在单一点计算合规风险极高,机密计算提供技术保障。 |
快速上手:从零体验 H100 机密推理
要实践 GPU 机密计算,你需要准备:
- 支持机密 GPU 的云实例(如 Azure NC H100 v5 机密 VM、OCI BM.GPU.H100.1)。
- 一份支持机密计算的 CUDA 驱动和 GPU 固件(云平台通常已预配置)。
- 一个用于远程证明验证的证明服务(可使用 NVIDIA 开源工具或云平台自带的证明服务)。
简化流程示例(以 Azure 机密 H100 为例):
- 创建机密 GPU VM,选择启用了 SEV-SNP + H100 CC 的镜像。
- 登录 VM,运行
nvidia-smi确认 GPU 处于“confidential computing”模式。 - 启动容器化的推理服务,通过 NVIDIA GPU Operator 启用 CCC(Confidential Computing Container)支持。
- 使用
nvidia-gpu-tools中的gpu-attestation-tool获取 GPU 证明令牌,并提交给 Azure 证明服务验证。 - 验证通过后,解密模型并将推理端点暴露给授权客户端。
提示:初次体验建议直接从云控制台启动一个对应的私有预览实例,按照官方快速入门文档操作。完整的本地集群部署需要额外配置安全 KMS 和证明策略,适合生产环境。
结语
GPU 机密计算将硬件安全边界从 CPU 扩展至 GPU,为 AI 推理带来了前所未有的信任模型。NVIDIA H100 的原生设计让“安全推理”不再是性能的牺牲品,而是一个开箱即用的新范式。随着机密计算生态的成熟,未来我们将看到更多基于零信任的多方 AI 协作落地,真正释放敏感数据的智能价值。
如果你想进一步深入,推荐阅读:
- NVIDIA Hopper 机密计算白皮书
- NVIDIA 机密计算开发者指南
- 《Confidential Computing on NVIDIA H100 GPUs》——NVIDIA Technical Blog 系列文章