最新
GRPO 组相对策略优化
了解 Group Relative Policy Optimization 如何以组内相对优势替代单独的价值网络,降低训练开销,成为 DeepSeek 等模型的高效对齐方法。
5
0
0
2026-06-13
最新
PPO 近端策略优化强化
掌握 PPO 算法中 clipped surrogate objective、价值函数与优势估计,理解其如何稳定更新策略,并在 RLHF 中担当核心优化器。
5
0
0
2026-06-13
最新
强化学习入门:从 Q-Learning 到 DQN
从多臂老虎机到 OpenAI Gym 环境,学习基于值函数和策略梯度的经典强化学习算法,并用 PyTorch 实现 DQN。
10
0
0
2026-06-12