反事实公平：如果敏感属性改变，决策也应改变吗？

FreeGuideOnline 最新 2026-06-27

什么是反事实公平

反事实公平（Counterfactual Fairness）是算法公平性研究中一种基于因果关系的方法。它的核心问题直指决策的底层逻辑：

如果一个人的敏感属性（如性别、种族）在反事实世界中不同，算法对其作出的决策是否应该改变？

该框架由Kusner等人于2017年正式提出，将公平性问题从统计关联层面提升到因果推断层面。它要求一个决策模型在真实世界和反事实世界中，对于同一个体在敏感属性改变后的结果保持一致，从而消除歧视性影响。

因果基础：结构因果模型

理解反事实公平必须先建立因果推断的思维。我们使用**结构因果模型（SCM）**来描述变量之间的生成关系。

外生变量 (U)：不可观测的背景因素，如天赋、成长环境、个人努力。
内生变量 (V)：模型中可观测的变量，如性别、教育水平、收入、贷款审批结果。
结构方程：每个内生变量都由其父节点和外生变量通过函数确定，例如： [ \text{教育水平} = f_1(\text{性别}, \text{家庭背景}, U_1) ] [ \text{收入} = f_2(\text{教育水平}, \text{工作经验}, \text{性别}, U_2) ]
因果图（DAG）：用有向无环图描绘变量间的因果关系。

反事实推理通过干预（do-operator）改变某个变量的值，并沿因果图传播影响，计算出“如果该变量是另一个值，结果会怎样”。

正式定义

在一个给定的因果模型中，预测器 (\hat{Y}) 被认为满足反事实公平，当且仅当对于任意个体，在观测到所有证据（背景变量 (U=u) 及其他观测变量）后，改变敏感属性 (A) 不会改变预测分布或预测值。

数学上，令 (A) 为敏感属性，(\hat{Y}) 为预测结果，(X) 为特征，(U) 为外生变量。如果： [ P(\hat{Y}{A \leftarrow a}(U) = y \mid X = x, A = a) = P(\hat{Y}{A \leftarrow a'}(U) = y \mid X = x, A = a) ] 对所有 (a, a') 和 (y) 成立，则预测器是反事实公平的。这里 (\hat{Y}_{A \leftarrow a'}) 表示将 (A) 干预为 (a') 时的反事实预测结果。

通俗地说：知道一个人的所有本质属性后，仅种族或性别的标签改变，不应该改变模型对该人的决策。

如何度量反事实公平

实现反事实公平需要首先构建可靠的因果模型，然后计算反事实差异。度量步骤通常包括：

因果建模：领域专家与数据科学家共同构建因果图，识别敏感属性对特征及结果的因果路径。
外生变量推断：通过结构方程和观测数据推断每个个体的外生变量 (u)（通常从后验分布中获取）。
计算反事实预测：对于每个个体，固定其推断出的 (u)，干预敏感属性 (A) 为不同值，利用结构方程重新计算下游特征，并输入模型得到反事实预测 (\hat{y}_{A \leftarrow a'})。
公平性指标：常用指标包括：
- 反事实差异（Counterfactual Disparity）：(\mathbb{E}[\hat{y}{A \leftarrow a'} - \hat{y}{A \leftarrow a}]) 在所有个体上的平均值。
- 反事实公平损失：如反事实预测的分布差异（KL散度）或分类器决策翻转率。

如果整个群体上的反事实差异接近于零，则认为模型在反事实意义下是公平的。

如何训练反事实公平模型

要使模型满足反事实公平，通常有三种策略：

1. 仅在非敏感后代变量上训练

利用因果图，只选择那些不是敏感属性后代的特征作为模型输入。这样切断了 (A) 对预测的因果路径。例如，如果“职业”受性别影响，则不使用“职业”预测贷款，而仅用“还款历史”等性别中性的真实因果父节点。这种方法在预测能力上可能受损，但能严格保证公平。

2. 使用外生变量 (U) 作为特征

直接以外生变量 (U) 或其估计值作为输入特征。因为 (U) 包含了决定个体结果的潜在因素，且与敏感属性无关（在因果图中 (U) 独立于 (A)），模型预测将自然独立于 (A)。难点在于 (U) 不可观测，需要借助变分自编码器等隐变量模型来近似。

3. 正则化约束

在模型训练目标中加入反事实公平的惩罚项。例如，最小化主任务损失的同时，惩罚反事实预测对 (A) 干预的依赖度。这需要可微的反事实推理模块。

与其他公平定义的关系

公平性标准	核心思想	与反事实公平的关键区别
统计均等	(P(\hat{Y}=1 \mid A=0) = P(\hat{Y}=1 \mid A=1))	仅关注观测分布，可能因历史偏见反而造成不公（如男女合格率不同时强迫比例相等）。
机会均等	(P(\hat{Y}=1 \mid A=0,Y=1) = P(\hat{Y}=1 \mid A=1,Y=1))	标注真实结果 (Y) 本身可能含有偏见，反事实公平通过因果模型解耦偏见。
个人公平	相似个体应得到相似预测	相似度度量不涉因果，反事实公平是基于同一人因果操纵的个体化公平。

反事实公平的优势在于它直接应对了歧视的因果机制，而不仅仅是关联。它承认现实世界中特征的差异可能部分由歧视性历史造成，并尝试依照个体的内在本质而非其敏感标签做出决策。

挑战与局限性

实际应用反事实公平时需要正视若干难点：

因果模型的不确定性：真实世界的因果图往往未知且富有争议。错误的因果假设会导致错误的反事实估计，进而产生新的不公。
外生变量推断难：潜在变量模型难以精确识别，尤其在非线性、高维场景下。
预测能力权衡：删除敏感属性的所有下游效应可能严重削弱模型性能。并非所有来源于敏感属性的信息都是歧视性的（例如某些医学风险差异），一刀切可能破坏合理预测。
计算复杂度：为每个样本做反事实推断的成本高，在大规模系统中部署困难。
隐含的结构性偏见：即使属性 (A) 不被直接使用，若 (U) 与 (A) 在数据生成过程中存在统计依赖，所推断的 (U) 仍可能泄露敏感信息。

实践示例简析

假设我们构建一个薪资预测模型，担心性别偏见。因果图设定为： 性别 → 职业选择、每周工时；性别 ← U1（社会刻板影响）；工作经验 ← 年龄、职业选择；薪资 ← 职业选择、每周工时、工作经验、技术能力、U2。

识别公平变量：技术能力、工作经验（可能部分受到职业选择影响）是性别后代？需要进一步细化。
仅使用非后代：如果我们认为技术能力（通过测试认证）是外生的，不依赖性别，则可采用。放弃职业选择和每周工时，因为它们是性别歧视的潜在通道。
隐变量法：使用变分自编码器从历史数据中提取独立于性别的潜在因子，代表真实生产力，然后用该因子预测薪资。
评估：为每位员工计算如果她是男性/女性的反事实薪资，检查平均差异。若性别薪资反事实差异很小，则模型通过反事实公平检验。

总结

反事实公平为算法公平性提供了因果透镜，它把公平问题重新表述为：一个人不应因为其社会身份标签的不同而得到不同的对待，当这个标签在因果上不应影响真实的决策依据时。 它比纯统计方法更贴近人类对歧视的直觉——即“换个身份，结果不变”的公平观。然而，要可靠地实施这一框架，必须依靠领域知识严谨地构建因果模型，并接受可解释性与预测性能之间的必要权衡。

对于初学者而言，理解反事实公平的关键是区分“关联”与“因果”，并认识到仅消除敏感属性本身远远不够；我们需要消除其在因果链条中传递的不合理影响。