FedProx：处理统计异构性的联邦优化算法

FreeGuideOnline 最新 2026-06-28

text 服务器输入：初始模型 w^0，近端系数 μ，总通信轮数 T 每一轮 t = 0,...,T-1: 选择客户端子集 S_t 将当前全局模型 w^t 发送给各选中客户端对于每个客户端 k ∈ S_t 并行执行：初始化本地模型 w_k ← w^t 将 h_k(w;w^t) 作为本地目标函数运行本地求解器（如 SGD），找到 γ-不精确解 w_k 将 w_k (或 Δ_k = w_k - w^t) 发送回服务器服务器聚合： w^{t+1} = (∑_{k∈S_t} n_k w_k) / (∑_{k∈S_t} n_k) 输出：最终全局模型 w^T


---

## 近端系数 μ 的作用与调参

近端系数 \( \mu \) 是 FedProx 中最重要的超参数。其效果可理解为：

- **μ = 0**：等价于 FedAvg，没有约束。
- **μ 很小**：提供弱正则，允许一些本地漂移，但能缓解极度不稳定的情况。
- **μ 很大**：严格将本地模型拉向全局模型，削弱本地学习的个性化能力。极端情况下，各客户端更新几乎等于全局模型，模型可能无法从本地数据中充分学习。

实际使用时，μ 通常从较小的值开始尝试（如 0.001、0.01、0.1），观察验证集上的收敛曲线和最终准确率。统计异构性越强，往往需要越大的 μ。一些研究也表明，自适应动态调整 μ（如随着训练进程递减）可以获得更优效果。

---

## FedProx 的优势与适用场景

### 优势总结

1. **稳健收敛**：在 Non-IID 程度极高的设定下，FedAvg 可能发散，而 FedProx 能稳定收敛到较优解。
2. **容忍系统异构性**：不要求所有客户端执行相同数量的本地迭代，支持计算资源不同的设备动态调整求解精度。
3. **理论保证**：论文在非凸目标下，结合近端项和不精确求解，给出了收敛性证明，展示了在统计异构和系统异构下的优良性质。
4. **实现简单**：本质只是修改本地损失函数，代码改动量极小，与现有联邦学习框架高度兼容。

### 适用场景

- **跨机构联邦学习**（如医院、银行），参与方数据分布天然差异大。
- **移动设备联邦学习**，用户行为模式多样，且设备算力差距明显。
- **任何使用 FedAvg 发现收敛不稳定或最终性能不理想的 Non-IID 情形**，都可以第一时间尝试引入 FedProx 正则化。

---

## FedProx 与相关方法的比较

### FedProx vs FedAvg

| 方法 | 本地目标 | 本地求解要求 | Non-IID 稳健性 | 实现难度 |
|------|----------|--------------|----------------|----------|
| FedAvg | min F_k(w) | 通常固定 E 个 epoch | 较弱，可能发散 | 极简 |
| FedProx | min F_k(w) + (μ/2)||w-w^t||^2 | 不精确求解，灵活 | 强，稳定收敛 | 极简 |

### FedProx 与正则化类方法

除了 FedProx，还有 SCAFFOLD、FedDyn 等方法也是应对异构性的。相比 SCAFFOLD 需要维护控制变量（增加通信和存储），FedProx 的超参数更少、工程部署更轻量。而 FedDyn 则是在全局目标中引入动态正则项，与 FedProx 的逐轮近端思路有相似之处，但实现更复杂。

简单地说，FedProx 可作为联邦学习遭遇 Non-IID 问题时一个轻量级且高效的基准改进方案。

---

## 实战建议与常见问题

### 如何在代码中实现？

若你使用 PyTorch，只需在本地训练循环的损失函数后加一行：

```python
loss = criterion(outputs, labels)
# 添加近端项
prox_term = 0.5 * mu * sum(
    (p - global_param).norm()**2
    for p, global_param in zip(model.parameters(), global_model.parameters())
)
loss += prox_term