免费编程教程

最新
强化学习离线评估

学习在不与环境交互的情况下评估强化学习策略,如重要性采样、双重稳健估计等离线策略评估技术。

2 0 0
2026-06-24
最新
智能竞价策略

综述程序化广告中的智能出价技术,包括约束竞价、强化学习出价和预算分配优化。

1 0 0
2026-06-24
最新
强化学习推荐

将强化学习引入推荐,建模用户的长期体验和探索利用平衡,提升长期用户满意度和留存。

2 0 0
2026-06-24
最新
机器人强化学习

学习将强化学习应用于机器人操作与导航,掌握环境建模、奖励设计和 Sim-to-Real 迁移的关键技术。

7 0 0
2026-06-20
最新
对话策略学习

利用强化学习优化对话系统的动作决策,学习 DQN、策略梯度等方法在对话管理中最大化任务成功率。

10 0 0
2026-06-19
最新
强化学习入门

了解强化学习基本概念,建立马尔可夫决策过程模型。

12 0 0
2026-06-17
最新
对话策略学习

研究对话系统中决定下一步动作的策略模块,从有限状态策略、基于规则到深度 Q 网络和策略梯度方法优化对话流程。

9 0 0
2026-06-15
最新
GRPO 组相对策略优化

了解 Group Relative Policy Optimization 如何以组内相对优势替代单独的价值网络,降低训练开销,成为 DeepSeek 等模型的高效对齐方法。

5 0 0
2026-06-13
最新
PPO 近端策略优化强化

掌握 PPO 算法中 clipped surrogate objective、价值函数与优势估计,理解其如何稳定更新策略,并在 RLHF 中担当核心优化器。

5 0 0
2026-06-13
最新
强化学习入门:从 Q-Learning 到 DQN

从多臂老虎机到 OpenAI Gym 环境,学习基于值函数和策略梯度的经典强化学习算法,并用 PyTorch 实现 DQN。

10 0 0
2026-06-12