使用 Bradley-Terry 或 Plackett-Luce 模型从人类偏好比较数据中训练奖励模型,作为对齐的监督信号。
从成对比较或多选项排序的人类偏好数据中学习潜在奖励函数,用于模型对齐和个性化推荐。