反事实公平:如果敏感属性改变,决策也应改变吗?

FreeGuideOnline 最新 2026-06-27

什么是反事实公平

反事实公平(Counterfactual Fairness)是算法公平性研究中一种基于因果关系的方法。它的核心问题直指决策的底层逻辑:

如果一个人的敏感属性(如性别、种族)在反事实世界中不同,算法对其作出的决策是否应该改变?

该框架由Kusner等人于2017年正式提出,将公平性问题从统计关联层面提升到因果推断层面。它要求一个决策模型在真实世界和反事实世界中,对于同一个体在敏感属性改变后的结果保持一致,从而消除歧视性影响。

因果基础:结构因果模型

理解反事实公平必须先建立因果推断的思维。我们使用**结构因果模型(SCM)**来描述变量之间的生成关系。

  • 外生变量 (U):不可观测的背景因素,如天赋、成长环境、个人努力。
  • 内生变量 (V):模型中可观测的变量,如性别、教育水平、收入、贷款审批结果。
  • 结构方程:每个内生变量都由其父节点和外生变量通过函数确定,例如: [ \text{教育水平} = f_1(\text{性别}, \text{家庭背景}, U_1) ] [ \text{收入} = f_2(\text{教育水平}, \text{工作经验}, \text{性别}, U_2) ]
  • 因果图(DAG):用有向无环图描绘变量间的因果关系。

反事实推理通过干预(do-operator)改变某个变量的值,并沿因果图传播影响,计算出“如果该变量是另一个值,结果会怎样”。

正式定义

在一个给定的因果模型中,预测器 (\hat{Y}) 被认为满足反事实公平,当且仅当对于任意个体,在观测到所有证据(背景变量 (U=u) 及其他观测变量)后,改变敏感属性 (A) 不会改变预测分布或预测值。

数学上,令 (A) 为敏感属性,(\hat{Y}) 为预测结果,(X) 为特征,(U) 为外生变量。如果: [ P(\hat{Y}{A \leftarrow a}(U) = y \mid X = x, A = a) = P(\hat{Y}{A \leftarrow a'}(U) = y \mid X = x, A = a) ] 对所有 (a, a') 和 (y) 成立,则预测器是反事实公平的。这里 (\hat{Y}_{A \leftarrow a'}) 表示将 (A) 干预为 (a') 时的反事实预测结果。

通俗地说:知道一个人的所有本质属性后,仅种族或性别的标签改变,不应该改变模型对该人的决策。

如何度量反事实公平

实现反事实公平需要首先构建可靠的因果模型,然后计算反事实差异。度量步骤通常包括:

  1. 因果建模:领域专家与数据科学家共同构建因果图,识别敏感属性对特征及结果的因果路径。
  2. 外生变量推断:通过结构方程和观测数据推断每个个体的外生变量 (u)(通常从后验分布中获取)。
  3. 计算反事实预测:对于每个个体,固定其推断出的 (u),干预敏感属性 (A) 为不同值,利用结构方程重新计算下游特征,并输入模型得到反事实预测 (\hat{y}_{A \leftarrow a'})。
  4. 公平性指标:常用指标包括:
    • 反事实差异(Counterfactual Disparity):(\mathbb{E}[\hat{y}{A \leftarrow a'} - \hat{y}{A \leftarrow a}]) 在所有个体上的平均值。
    • 反事实公平损失:如反事实预测的分布差异(KL散度)或分类器决策翻转率。

如果整个群体上的反事实差异接近于零,则认为模型在反事实意义下是公平的。

如何训练反事实公平模型

要使模型满足反事实公平,通常有三种策略:

1. 仅在非敏感后代变量上训练

利用因果图,只选择那些不是敏感属性后代的特征作为模型输入。这样切断了 (A) 对预测的因果路径。例如,如果“职业”受性别影响,则不使用“职业”预测贷款,而仅用“还款历史”等性别中性的真实因果父节点。这种方法在预测能力上可能受损,但能严格保证公平。

2. 使用外生变量 (U) 作为特征

直接以外生变量 (U) 或其估计值作为输入特征。因为 (U) 包含了决定个体结果的潜在因素,且与敏感属性无关(在因果图中 (U) 独立于 (A)),模型预测将自然独立于 (A)。难点在于 (U) 不可观测,需要借助变分自编码器等隐变量模型来近似。

3. 正则化约束

在模型训练目标中加入反事实公平的惩罚项。例如,最小化主任务损失的同时,惩罚反事实预测对 (A) 干预的依赖度。这需要可微的反事实推理模块。

与其他公平定义的关系

公平性标准 核心思想 与反事实公平的关键区别
统计均等 (P(\hat{Y}=1 \mid A=0) = P(\hat{Y}=1 \mid A=1)) 仅关注观测分布,可能因历史偏见反而造成不公(如男女合格率不同时强迫比例相等)。
机会均等 (P(\hat{Y}=1 \mid A=0,Y=1) = P(\hat{Y}=1 \mid A=1,Y=1)) 标注真实结果 (Y) 本身可能含有偏见,反事实公平通过因果模型解耦偏见。
个人公平 相似个体应得到相似预测 相似度度量不涉因果,反事实公平是基于同一人因果操纵的个体化公平。

反事实公平的优势在于它直接应对了歧视的因果机制,而不仅仅是关联。它承认现实世界中特征的差异可能部分由歧视性历史造成,并尝试依照个体的内在本质而非其敏感标签做出决策。

挑战与局限性

实际应用反事实公平时需要正视若干难点:

  • 因果模型的不确定性:真实世界的因果图往往未知且富有争议。错误的因果假设会导致错误的反事实估计,进而产生新的不公。
  • 外生变量推断难:潜在变量模型难以精确识别,尤其在非线性、高维场景下。
  • 预测能力权衡:删除敏感属性的所有下游效应可能严重削弱模型性能。并非所有来源于敏感属性的信息都是歧视性的(例如某些医学风险差异),一刀切可能破坏合理预测。
  • 计算复杂度:为每个样本做反事实推断的成本高,在大规模系统中部署困难。
  • 隐含的结构性偏见:即使属性 (A) 不被直接使用,若 (U) 与 (A) 在数据生成过程中存在统计依赖,所推断的 (U) 仍可能泄露敏感信息。

实践示例简析

假设我们构建一个薪资预测模型,担心性别偏见。因果图设定为: 性别职业选择每周工时性别U1(社会刻板影响);工作经验年龄职业选择薪资职业选择每周工时工作经验技术能力U2

  1. 识别公平变量技术能力工作经验(可能部分受到职业选择影响)是性别后代?需要进一步细化。
  2. 仅使用非后代:如果我们认为技术能力(通过测试认证)是外生的,不依赖性别,则可采用。放弃职业选择每周工时,因为它们是性别歧视的潜在通道。
  3. 隐变量法:使用变分自编码器从历史数据中提取独立于性别的潜在因子,代表真实生产力,然后用该因子预测薪资。
  4. 评估:为每位员工计算如果她是男性/女性的反事实薪资,检查平均差异。若性别薪资反事实差异很小,则模型通过反事实公平检验。

总结

反事实公平为算法公平性提供了因果透镜,它把公平问题重新表述为:一个人不应因为其社会身份标签的不同而得到不同的对待,当这个标签在因果上不应影响真实的决策依据时。 它比纯统计方法更贴近人类对歧视的直觉——即“换个身份,结果不变”的公平观。然而,要可靠地实施这一框架,必须依靠领域知识严谨地构建因果模型,并接受可解释性与预测性能之间的必要权衡。

对于初学者而言,理解反事实公平的关键是区分“关联”与“因果”,并认识到仅消除敏感属性本身远远不够;我们需要消除其在因果链条中传递的不合理影响。