免费编程教程

最新
偏好学习

从成对比较或多选项排序的人类偏好数据中学习潜在奖励函数,用于模型对齐和个性化推荐。

4 0 0
2026-06-29