积分梯度：公理化特征归因的路径积分

FreeGuideOnline 最新 2026-06-14

积分梯度 Integrated Gradients：公理化特征归因的路径积分

1. 引言：我们为什么需要解释模型

现代深度学习模型虽然强大，但往往是黑箱。在医疗诊断、信贷审批等关键决策中，理解模型为何做出某个预测至关重要。特征归因（Feature Attribution）技术旨在为每个输入特征分配一个重要性分数，从而解释预测结果。

早期的简单方法如输入梯度（Input Gradient）虽然直观，但存在梯度饱和问题（例如，对图像分类，像素值在某个阈值后继续增加不再改变预测，梯度变为零，导致重要特征被错误认为无关）。积分梯度（Integrated Gradients）通过公理化方法和路径积分的思想，解决了梯度饱和问题，并提供了一种原理性强、易于实现的归因方法。

2. 直观理解：从梯度到沿路径累积

假设我们有一个图像分类模型，输入是一只猫的图像，输出为类别“猫”的预测分数。我们想知道图像中哪些像素对“猫”的预测贡献最大。

简单梯度：仅看输入点处预测分数对像素的偏导数。如果猫耳朵区域的像素值已经足够高，增加该像素值可能不会再提高“猫”分数，此时梯度为0，我们就错误地认为该像素不重要。
积分梯度的思路：我们不只看最终输入点的梯度，而是从一个无信息的基线输入（例如全黑图像或噪声图像）开始，沿一条直线路径逐步过渡到实际输入。在这条路径上的每一个中间图像，我们都计算梯度，然后将所有点上的梯度累积（积分）起来。这样，即使最终点存在饱和，路径早期当特征从无到有时，梯度非零，其累积量就能正确反映出该特征的重要性。

这种从基线到输入的路径积分，确保了每个特征对输出变化的总贡献被完整捕获，并满足一系列合理的公理。

3. 形式化定义与公理基础

积分梯度（IG）由 Sundararajan 等人在2017年提出，其核心定义基于两条公理：敏感性与实现不变性。

3.1 敏感性公理 (Sensitivity)

该公理规定：如果对于某个输入特征，改变该特征会导致预测输出发生变化，那么该特征应该被赋予非零的归因值。这对单基线差异是成立的，但对梯度饱和问题失效。IG 通过考虑输入与基线之间的差异，恢复了这一属性。

3.2 实现不变性 (Implementation Invariance)

如果两个网络在所有输入上输出完全相同（函数等价），那么特征归因方法对这两个网络应该产生相同的归因结果。这对于简单梯度不成立，因为相同函数可以通过不同网络结构实现，梯度分布可能不同。IG 的路径积分方法天然满足实现不变性，因为它依赖于函数的输出而非内部结构。

基于这两条公理，积分梯度是唯一同时满足若干合理性质的路径方法。

4. 积分梯度的定义与计算方法

给定一个深度模型 $F: \mathbb{R}^n \rightarrow \mathbb{R}$，输入 $x \in \mathbb{R}^n$，以及一个基线 $x' \in \mathbb{R}^n$（通常为全零向量、全黑图像或空白文本嵌入）。对于输入的第 $i$ 个特征，其积分梯度定义为：

$$ \text{IG}_i(x) = (x_i - x'i) \times \int{\alpha=0}^{1} \frac{\partial F(x' + \alpha (x - x'))}{\partial x_i} d\alpha $$

解释步骤：

直线路径：在基线 $x'$ 和输入 $x$ 之间线性插值，生成中间图像 $x' + \alpha (x - x')$，其中 $\alpha$ 从 0 到 1。
计算梯度：对每个中间点，计算输出 $F$ 关于第 $i$ 个特征的梯度。
累积梯度：沿路径对所有这些梯度进行积分（累积求和）。
缩放：乘以输入与基线在该特征上的差值 $(x_i - x'_i)$，这保证了如果特征完全没有变化，其归因为零。

在实际离散计算中，积分用有限个步长近似（通常是50~1000步长的黎曼和）：

$$ \text{IG}_i^{approx}(x) = \frac{(x_i - x'i)}{m} \sum{k=1}^{m} \frac{\partial F(x' + \frac{k}{m} (x - x'))}{\partial x_i} $$

这里 $m$ 是近似的步数。增加 $m$ 可以提高近似精度，但计算代价线性增加。

5. 选择基线的重要性

基线代表“缺失”信号的状态。基线的选择直接影响归因的意义：

图像：常用全黑图像（像素值0）或噪点图像。全黑能表达“无信息”状态，但有时白色基线更适合某些场景（因为图像中0可能对应有意义的像素）。另一种选择是用高斯模糊版本作为基线。
文本：采用全零嵌入向量，或填充标记的嵌入。
通用选择：基线应使模型输出接近零或具有中性预测的概率分布。经验上，可以尝试多个基线并取平均（Expected Gradients）以获得更稳健的结果。

6. 积分梯度的优良性质

完备性 (Completeness)：所有特征的归因值之和等于模型在输入与基线处的输出差：$\sum_i \text{IG}_i(x) = F(x) - F(x')$。这保证了总贡献守恒，使其成为一种真正的“分解”解释。
线性性：归因方法对模型输出是线性的，便于组合分析。
对称保持性：如果输入中存在对称特征，且模型对称地对待它们，归因值也会相等。
易于实现：只需要模型梯度，可无缝对接任何可微分模型，无需修改模型结构。

7. 实践中的应用与变体

7.1 使用积分梯度解释图像分类

在图像分类中，IG 生成一张与输入同尺寸的归因图（或显著图），其中每个像素的值表示其对预测类别的重要性。正归因表示增加像素值会增加输出分数，负归因则相反。通过热力图可视化，可以直观看到模型关注的区域。

7.2 自然语言处理中的应用

对于文本模型，积分梯度可计算每个词嵌入维度或直接对词元（token）进行归因。通常将同一个词所有维度的归因求和得到词级别的分数，然后高亮文本中重要词语，解释情感分类、问答预测等。

7.3 常见改进：期望梯度 (Expected Gradients)

由于单一基线可能引入偏差，Expected Gradients 用训练数据集中多个样本作为基线，对 IG 结果取平均。这避免了对特定基线的敏感性，并反映了从真实数据分布中移除特征的效果。

7.4 超参数选择与调试

步数 $m$：需要检查近似误差。如果 $\sum_i \text{IG}_i(x)$ 与 $F(x)-F(x')$ 偏差较大，应增加步数，直到收敛。
可视化：对图像，通常将归因值取绝对值或正部分截断，然后归一化到 [0,1] 以便显示。
计算效率：对于大模型，可以在批处理中同时计算多个步长的梯度，利用 GPU 并行加速。

8. 与其他归因方法的对比

方法	原理	饱和问题	实现不变性	完备性
输入梯度	$\partial F / \partial x$	有	无	无
梯度*输入 (Gradient×Input)	$x \odot \partial F / \partial x$	部分解决	无	无
LRP / DeepLIFT	反向传播定制规则	解决	依赖于具体规则	近似完备
积分梯度	路径积分	解决	有	有
SHAP	博弈论 Shapley 值	解决	近似（需采样）	有

积分梯度是第一个同时满足敏感性、实现不变性、完备性和线性性的方法，学术和工业界广泛使用。

9. 示例代码（使用 Captum 库）

以下用 PyTorch 和 Captum 库演示对图像和文本模型的积分梯度计算。

图像示例：

import torch
from captum.attr import IntegratedGradients
from torchvision import models, transforms

model = models.resnet18(pretrained=True).eval()
input_img = ...  # 预处理后的图像张量 (1,3,224,224)
baseline = torch.zeros_like(input_img)  # 全黑基线

ig = IntegratedGradients(model)
attributions, delta = ig.attribute(input_img, baseline, n_steps=50, return_convergence_delta=True)
print("近似误差 delta:", delta)

文本示例：

from captum.attr import IntegratedGradients, TokenReferenceBase
# 假设已有一个文本分类模型 model 和对应的嵌入层
token_reference = TokenReferenceBase(reference_token='<PAD>')
baseline_ids = token_reference.generate_reference(seq_length, device=...)  # PAD token ids
# 转换为嵌入向量...
ig = IntegratedGradients(model)
attributions = ig.attribute(inputs_embeds, baselines=baseline_embeds, n_steps=50)

10. 总结

积分梯度为深度学习模型提供了一种坚实、公理化的特征重要性度量方案。它把解释问题转化为从“无信息”状态到实际输入的路径积分，彻底解决了梯度饱和困境。凭借完备性和实现不变性，IG 成为可解释人工智能中不可或缺的工具，并在医疗影像、金融风控、自然语言理解等高风险领域获得广泛应用。

下一步学习建议：阅读原论文《Axiomatic Attribution for Deep Networks》深入理解公理推导；尝试使用 Captum 库对不同数据实验；探索 Guided Integrated Gradients 等自适应路径选择变体。