免费编程教程

最新
奖励模型训练

使用 Bradley-Terry 或 Plackett-Luce 模型从人类偏好比较数据中训练奖励模型,作为对齐的监督信号。

2 0 0
2026-06-29
最新
偏好学习

从成对比较或多选项排序的人类偏好数据中学习潜在奖励函数,用于模型对齐和个性化推荐。

3 0 0
2026-06-29