纵向联邦特征工程:多方特征的安全分箱与选择

FreeGuideOnline 最新 2026-06-28

为什么需要纵向联邦特征工程

在纵向联邦学习场景中,不同参与方持有相同样本的不同特征列,例如银行拥有用户收入、负债特征,电商平台拥有用户购物、浏览特征。直接合并原始特征会暴露各参与方的数据,违反隐私法规。因此需要在不暴露原始数据的前提下,联合完成特征工程,包括特征分箱与特征选择,为后续纵向联邦模型训练提供高质量、安全合规的特征输入。

本教程将详细拆解纵向联邦特征工程的核心原理与实现步骤,重点讲解多方特征的安全分箱与特征选择方法,帮助你从零搭建隐私保护的联合特征工程流水线。


基础概念回顾

纵向联邦学习的实体对齐

在纵向联邦中,各参与方的数据通过加密实体对齐(如基于RSA盲签名或哈希的密钥交换)找到相同的样本ID集合,但彼此不清楚对方的特征值。完成对齐后,各方持有相同样本的不同特征列,这是特征工程的前提。

特征分箱与特征选择的意义

  • 特征分箱:将连续特征离散化为有序的区间,提升模型的稳定性与可解释性,同时降低信息泄露风险。
  • 特征选择:筛选对标签预测有用的特征,移除冗余或低质量特征,减少通信开销并防止过拟合。

在联邦环境下,标签通常由一方持有(称为主动方),其他参与方(被动方)提供特征但不持有标签。因此分箱和选择过程需要在保护隐私前提下利用标签信息。


纵向联邦安全特征分箱

特征分箱目标是根据特征值与标签的关联,将连续值划分成最优的离散区间。安全分箱保证被动方无法获取标签信息,主动方无法获取具体特征值。

等频分箱与等宽分箱的联邦实现

对于不依赖标签的无监督分箱,可以直接在各被动方本地完成。例如等宽分箱按值域均匀切分,等频分箱按样本数量均匀分配。这类分箱只需各被动方独立执行,无需交互,天然保护隐私。

等频分箱本地执行步骤

  1. 对特征列排序。
  2. 确定分箱数K,计算每个箱的大致样本数N/k。
  3. 按样本分位数设置切分点,生成分箱边界。
  4. 将特征值映射为箱号(0到K-1)。

但由于等频分箱未考虑标签分布,对模型提升有限。更优的方式是采用有监督分箱,如基于信息值(IV)或卡方检验的分箱,这需要标签参与。

基于联邦决策树的分箱(安全等距/最优分箱)

一种主流的隐私保护有监督分箱方法是将纵向联邦梯度提升树(如SecureBoost)的树结构转换为分箱规则。SecureBoost在训练过程中,被动方只需提供特征直方图或梯度统计汇总,主动方计算分裂增益并决定切分点,整个过程使用同态加密或秘密共享保护隐私。

步骤

  1. 各方将特征值分桶(如使用本地等频分箱作为初始桶),加密桶内样本的梯度和二阶导统计量。
  2. 主动方汇总加密统计,联合计算每个候选切分点的信息增益。
  3. 主动方选择增益最大的切分点,将切分点信息返回被动方,被动方记录为分箱边界。
  4. 重复直到树结构或增益不再提升,最终获得的切分点集即为安全分箱边界。

该方法的优点在于:切分点是基于标签信息优化的,且被动方仅需接收加密的聚合梯度信息,无法反向推导标签。

联邦IV值分箱

信息值(Information Value,IV)是评分卡模型中衡量特征预测能力的常用指标。在纵向联邦下可实现安全的等距IV分箱或最优IV分箱。

核心思想

  • 初始阶段,被动方将特征粗略分为多个等距/等频小区间。
  • 主动方计算各区间的好样本数、坏样本数(标签为0/1)。
  • 为防止主动方通过极端区间反推个体特征,需加入安全聚合:被动方对每个区间内的样本发送加密的计数请求,主动方使用同态加密返回区间内好/坏样本数的密文。
  • 被动方解密后(或通过安全多方计算)得到每个箱的Woe(证据权重)和IV值,然后合并相邻IV值较低的区间,最终形成较少分箱。

更简单的方式是利用联邦IV计算协议:被动方提供特征值的分位点分桶,主动方告知每桶的正负样本数(可加噪或差分隐私保护),被动方本地计算IV并贪心合并,整个流程无需加密原始特征值,仅统计量交换。

分箱边界对齐与安全区间编码

分箱完成后,各参与方保存各自特征的分箱边界。在模型训练或推理时,被动方根据边界将原始特征值映射为离散箱号,然后参与后续联邦计算。为了保证多方特征维度可拼接,通常使用one-hot或Embedding编码,但编码也在本地完成,不影响隐私。


纵向联邦安全特征选择

特征选择的目标是从多方提供的海量特征中筛选出最有价值的子集。纵向联邦下,特征选择需解决:被动方特征值不可见,主动方标签不可外泄,同时要评估特征与标签的关联度或对模型的贡献。

联邦过滤式特征选择

过滤式方法使用统计指标独立评价每个特征,计算快速且易于联邦化。

联邦IV值排序

如前所述,安全计算每个特征的IV值后,主动方(或协调方)获得所有特征的IV值,根据阈值筛选高IV特征。IV值在0.02以下通常认为预测能力弱,可以剔除。实现时需注意防止IV值泄露特征分布细节,可通过差分隐私或安全聚合完成。

联邦相关系数计算

对于回归标签,可使用联邦皮尔逊相关系数。被动方持有特征向量x,主动方持有标签向量y。双方通过安全内积协议计算x·y、x的平方和以及y的平方和,从而得到相关系数,全程数据加密。类似地,基于联邦方差分析(ANOVA)的F检验也可以用于特征选择。

联邦互信息

互信息衡量特征与标签的非线性依赖关系,更适合离散特征或分箱后的特征。计算方法基于联合分布估计:被动方本地统计特征值的频数,主动方统计标签的频数,然后通过隐私保护集合交集基数(PSI-CA)或同态加密计算联合频数表,进而推导互信息。

联邦包裹式特征选择

包裹式方法将模型性能作为特征子集的评价标准,选择质量更高但计算开销大。在纵向联邦中,常用基于联邦模型的重要性度量。

基于SecureBoost的特征重要性

训练一个轻量级联邦梯度提升树模型,获得各特征的重要性得分(如分裂次数或增益加权)。主动方可以聚合所有参与者特征的重要性,选择Top-k特征。由于树训练过程已经过隐私保护处理,该重要性可直接作为一个安全特征选择信号。

流程

  1. 联邦训练一个包含所有特征的SecureBoost模型,限制树深度和棵树以控制通信成本。
  2. 每个参与方计算本地特征被用于分裂的次数或总增益。
  3. 各方将特征重要性分数发送给主动方(可加噪或安全求和)。
  4. 主动方汇总排序,选择保留特征子集。

这种方式直接模拟了特征在纵向联邦模型中的效用,选择偏差小。

联邦置换重要性

置换重要性衡量打乱某特征后模型性能的下降。在联邦中,被动方打乱本地特征样本的顺序(不改变值),然后重新计算联邦模型的评估指标(如AUC或损失)。指标下降越大,特征越重要。为保护标签隐私,评估指标可由主动方计算,被动方只获知最终的重要性排名,而不接触原始标签。

联邦嵌入式特征选择

嵌入式方法在模型训练过程中同时进行特征选择,例如使用带正则化的联邦逻辑回归或联邦线性模型,通过L1正则化产生稀疏解,权重为零的特征即被剔除。

联邦稀疏学习实现

  • 各方保存在本地的特征权重子向量,使用联邦平均或联邦优化器更新。
  • 应用近端梯度方法(如FISTA)实现L1正则化,每次更新后对本地权重软阈值化。
  • 经过少量轮次通信,大部分不重要特征的权重会收敛到零,从而实现特征选择。

由于模型参数仍存储在各方本地,且仅交换加密的梯度或参数更新,此方法安全性高,且直接为纵向线性模型服务。


完整实践流程

假设银行(主动方,有标签)与电商平台(被动方,提供用户行为特征)纵向联邦:

  1. 实体对齐:双方使用加密协议找到共同用户ID集合,且彼此不可见对方ID集合外的用户。
  2. 初始特征探索:被动方提供特征名、缺失率、数据类型等元数据,主动方可据此制定初步选择计划。
  3. 安全分箱:选择联邦IV分箱或SecureBoost分箱,为被动方连续特征生成分箱边界,并将连续特征映射为离散箱号。
  4. 过滤式特征初筛:计算联邦IV值或相关系数,剔除低预测力特征,减少后续建模复杂度。
  5. 包裹式特征精选:训练一个简单联邦树模型,得到特征重要性,保留Top-N特征。
  6. 特征编码与交付:各方将最终选定的特征按分箱边界编码为one-hot向量或整数索引,提供给纵向联邦模型训练。

常见问题与调优建议

  • 分箱边界共享风险:分箱边界本身可能泄露特征分布(如边界值反映了分位数)。可通过四舍五入、加噪声或仅共享加密形式降低风险。
  • 被动方不可见标签导致的偏差:基于IV或树的分箱需要主动方提供正负样本统计时,可引入差分隐私保证(如对计数添加拉普拉斯噪声),权衡隐私与分箱质量。
  • 通信开销:特征选择阶段避免全量联邦模型训练,优先使用过滤式方法。如果特征数量极大,可先各被动方本地粗筛(如方差过滤),再联合选择。
  • 特征分箱与特征选择的顺序:建议先分箱后选择,因为分箱后特征变为离散型,IV值和树模型更容易捕捉非线性关系,且直接生成可用于联邦模型输入的编码特征。

总结

纵向联邦特征工程通过安全分箱和选择协议,让多方在不泄露原始数据的前提下,联合打造高质量特征空间。安全分箱借助联邦决策树或加密IV计算实现有监督离散化;安全特征选择融合过滤式统计指标、模型重要性和正则化嵌入式方法,形成隐私保护下的特征筛选流水线。掌握这些技术,可以在合规前提下极大提升纵向联邦模型的性能与效率。