免费编程教程

最新
递归奖励建模

将复杂的人类意图递归分解为简单、可被当前模型或人类评估的子任务,实现对超人类能力的监督。

2 0 0
2026-06-30
最新
可扩展监督

探讨当人类无法直接评估超人类 AI 输出时,如何通过辩论、递归奖励建模等技术实现有效监督。

2 0 0
2026-06-30