免费编程教程

最新
模型对齐与价值观

探讨大模型对齐的三 H 原则(Helpful, Honest, Harmless),了解如何通过技术手段让模型行为符合人类意图与社会价值。

5 0 0
2026-06-13
最新
GRPO 组相对策略优化

了解 Group Relative Policy Optimization 如何以组内相对优势替代单独的价值网络,降低训练开销,成为 DeepSeek 等模型的高效对齐方法。

5 0 0
2026-06-13
最新
DPO 直接偏好优化

学习 Direct Preference Optimization 如何绕过显式奖励模型,直接从偏好对中优化策略,实现更稳定、更轻量的大模型对齐方案。

8 0 0
2026-06-13