最新
PPO 近端策略优化强化
掌握 PPO 算法中 clipped surrogate objective、价值函数与优势估计,理解其如何稳定更新策略,并在 RLHF 中担当核心优化器。
5
0
0
2026-06-13