强化学习在线教程 | 智能体在环境中学习

最新

强化学习离线评估

学习在不与环境交互的情况下评估强化学习策略，如重要性采样、双重稳健估计等离线策略评估技术。

人工智能离线评估强化学习策略

2 0 0

2026-06-24

最新

智能竞价策略

综述程序化广告中的智能出价技术，包括约束竞价、强化学习出价和预算分配优化。

人工智能竞价 RTB 强化学习

1 0 0

2026-06-24

最新

强化学习推荐

将强化学习引入推荐，建模用户的长期体验和探索利用平衡，提升长期用户满意度和留存。

人工智能强化学习推荐序列决策

2 0 0

2026-06-24

最新

机器人强化学习

学习将强化学习应用于机器人操作与导航，掌握环境建模、奖励设计和 Sim-to-Real 迁移的关键技术。

人工智能机器人强化学习仿真

7 0 0

2026-06-20

最新

对话策略学习

利用强化学习优化对话系统的动作决策，学习 DQN、策略梯度等方法在对话管理中最大化任务成功率。

人工智能对话策略强化学习对话管理

10 0 0

2026-06-19

最新

强化学习入门

了解强化学习基本概念，建立马尔可夫决策过程模型。

人工智能强化学习 MDP 入门

12 0 0

2026-06-17

最新

对话策略学习

研究对话系统中决定下一步动作的策略模块，从有限状态策略、基于规则到深度 Q 网络和策略梯度方法优化对话流程。

人工智能对话策略强化学习对话管理

9 0 0

2026-06-15

最新

GRPO 组相对策略优化

了解 Group Relative Policy Optimization 如何以组内相对优势替代单独的价值网络，降低训练开销，成为 DeepSeek 等模型的高效对齐方法。

人工智能 GRPO 强化学习模型对齐

5 0 0

2026-06-13

最新

PPO 近端策略优化强化

掌握 PPO 算法中 clipped surrogate objective、价值函数与优势估计，理解其如何稳定更新策略，并在 RLHF 中担当核心优化器。

人工智能 PPO 强化学习策略优化

5 0 0

2026-06-13

最新

强化学习入门：从 Q-Learning 到 DQN

从多臂老虎机到 OpenAI Gym 环境，学习基于值函数和策略梯度的经典强化学习算法，并用 PyTorch 实现 DQN。

人工智能强化学习 DQN 决策

10 0 0

2026-06-12

免费编程教程