最新
RLHF 人类反馈强化学习
完整梳理 RLHF 三阶段:监督微调、奖励模型训练与 PPO 强化学习,理解如何利用人类偏好数据让大模型输出更符合期望与价值观。
19
0
0
2026-06-13