免费编程教程

最新
SimPO 简易偏好优化

学习 SimPO 使用生成序列的平均对数概率作为内隐奖励,无需参考模型即可进行偏好对齐。

1 0 0
2026-06-29