强化学习推荐：把推荐视为序列决策过程

FreeGuideOnline 最新 2026-06-24

强化学习推荐：把推荐视为序列决策过程

推荐系统已经深入互联网的每一个角落，从电商购物到短视频浏览。但你是否想过，你的每一次点击、每一次停留，其实都在与一个隐形的“决策大脑”互动？传统的推荐算法往往只关心“此刻”给你推什么你最可能点，而强化学习推荐（Reinforcement Learning for Recommendation）则将目光放得更长远——它不仅关心你当下是否点击，更关心你未来的长期体验和整个交互旅程。本篇教程将带你从零开始，理解强化学习如何重塑推荐系统。

1. 为什么推荐是一个序列决策问题？

在进入技术细节前，我们先跳出代码，思考一个本质问题：当用户打开APP，推荐系统到底在做什么？

用户的一次访问通常包含多个步骤：看到推荐列表 → 点击某个商品 → 浏览详情 → 可能加入购物车 → 继续浏览或离开。这就像一个回合制游戏，系统每一步都要给出一个动作（推荐哪个商品），环境（用户）会给出一个反馈（点击、忽略、购买、离开），然后系统根据反馈调整下一次推荐。

传统的基于监督学习的推荐，往往把数据切成“静态样本”：用户过去点击了什么，训练一个模型预测某个用户对某个物品的点击率，然后按照预估点击率排序推荐。这种思路有一个致命缺陷：它无法建模推荐行为对用户未来状态的影响。比如，连续推荐低质但容易点击的标题党内容，短期内点击率好看，但长期会降低用户对平台的信任，导致用户流失。强化学习天然适合处理这种延迟奖励（Delayed Reward）与长期价值（Long-term Value）的权衡。

因此，将推荐视作序列决策过程（Sequential Decision Process），是直面推荐系统核心挑战的思维转变。

2. 强化学习基础：马尔可夫决策过程（MDP）

强化学习的数学基础是马尔可夫决策过程（MDP）。把它映射到推荐场景，会非常直观：

状态（State, (s_t)）：在时刻(t)，用户和环境的综合描述。可以是用户最近浏览的商品序列、当前所处页面、历史行为特征，甚至是用户的情绪隐状态。通常用特征向量表示。
动作（Action, (a_t)）：系统在(t)时刻可以采取的行动，即推荐一个或一组物品。动作空间可能是离散的物品ID集合，也可以是连续的特征向量（用于生成式推荐）。
奖励（Reward, (r_t)）：执行动作(a_t)后，环境返回的即时反馈。点击可以是+1分，购买是+5分，快速划过是-0.1分，长时间停留是+0.3分。奖励的设计是强化学习推荐中最考究艺术的部分。
状态转移（State Transition, (s_{t+1} \sim P(\cdot|s_t, a_t))）：在当前状态做出推荐后，用户会进入下一个状态。比如推荐了一个运动相机，用户点击并浏览了详情，状态中就会新增“运动相机”这个浏览记录，甚至用户意图可能从“随便逛逛”变为“户外装备购买”。
折扣因子（Discount Factor, (\gamma \in [0,1))）：用来平衡即时奖励与未来奖励。(\gamma)越接近1，系统越看重长期收益（如用户留存）；越接近0，越短视（只看点击率）。

目标：找到一个策略(\pi(a|s))（给定状态，选择动作的概率分布），使得整个交互轨迹的累积折扣奖励期望最大化： [ J(\pi) = \mathbb{E}{\tau \sim \pi}\left[\sum{t=0}^{\infty} \gamma^t r_t\right] ]

这就是推荐系统的终极优化目标：不是单次点击率，而是整个用户生命周期价值（LTV）。

3. 强化学习推荐 vs. 传统推荐：根本差异

维度	监督学习推荐	强化学习推荐
优化目标	单点预测准确度（CTR/CVR）	长期累积奖励（用户留存、总GMV）
数据性质	静态日志，独立同分布假设	动态交互序列，数据分布随策略变化
探索与利用	通常分离（先训练后上线，用ε-greedy探索）	探索本身是学习过程的一部分，需在线学习
反馈循环	模型离线更新，不能自适应改变	持续与环境互动，实时优化
延迟奖励	不易处理	天然通过价值函数或轨迹回报建模

最关键的区别在于：强化学习推荐将用户看作一个动态系统，推荐动作会改变用户的未来状态，而这种反事实因果效应在监督学习中被直接忽略。

4. 如何建模推荐MDP的核心组件

4.1 状态设计：不只是把原始行为扔进去

优秀的特征工程仍然是RL推荐落地的关键。常见状态构建方法：

短期行为序列：用户最近(k)次交互的物品ID、类目，通过Self-Attention或LSTM编码。
长期兴趣总结：用图网络聚合历史行为，输出兴趣表征。
会话上下文：当前时间、设备、网络环境、会话已持续时长。
用户静态属性：年龄、性别、会员等级。

状态需要具备马尔可夫性——即包含所有影响未来决策的历史信息。实践中，我们通常用RNN/Transformer压缩序列历史来逼近这一性质。

4.2 动作空间处理：巨大的离散动作空间

典型的推荐动作空间是百万量级的物品ID，传统的DQN需要为每个动作输出Q值，这在大规模空间下无法计算。常用解决方案：

Slate Recommendation（推荐一组物品） 将问题分解为：先用生成器选择候选集，再用评估器打分。
基于参数的策略（Parameter-based） 输出一个连续向量，代表用户当前偏好的表征，然后与物品表征做内积检索（如Shallow Decoder、DRR框架），将动作选择转化为最大内积搜索（MIPS），极大降低计算量。
分层动作：先选择类目，再选物品；或使用Wolpertinger架构，在动作空间中先学一个连续的原型动作，再映射到最近的合法物品。

4.3 奖励函数：工程与艺术的交汇

奖励需要谨慎设计，否则RL会“作弊”。奖励设计的核心原则：对齐真正的商业目标。

简单方案： [ r = w_1 \cdot \text{click} + w_2 \cdot \text{like} + w_3 \cdot \text{purchase} - w_4 \cdot \text{skip} ]

更高级的设计可以考虑：

内在奖励：鼓励探索，如好奇心驱动（预测下一状态的误差作为奖励）。
塑造奖励（Reward Shaping）：给予中间信号，如“页面停留>10秒”给+0.1，帮助稀疏奖励的学习。
反事实奖励：利用离线策略评估方法，估计如果采取不同行动可能获得的奖励。

陷阱：将曝光时长作为直接奖励，会导致系统推荐无限长的视频或无效内容来“绑架”用户时间。

5. 主流强化学习推荐算法

5.1 基于值函数的方法：Deep Q-Network (DQN) 变体

DQN学习最优动作价值函数(Q^*(s,a))，表示在状态(s)执行动作(a)后，未来累积折扣奖励的期望。推荐动作选择为 (\arg\max_a Q(s,a))。

然而原生DQN对动作空间巨大、环境非平稳性的推荐场景水土不服。改进版如DEAR（Deep Reinforcement Learning for Online Advertising）将动作输出为一个连续向量，然后与物品向量做内积，再通过Q网络评价。典型的架构是： [ a = \text{UserStateNet}(s), \quad Q(s,i) = f(a \cdot \text{item_emb(i)} ) ] 训练时通过TD误差更新参数： [ \mathcal{L} = \mathbb{E}\left[\left(r + \gamma \max_{i'} Q(s',i') - Q(s,i) \right)^2\right] ]

5.2 策略梯度方法：直接优化推荐策略

策略梯度直接参数化策略(\pi_\theta(a|s))，通过采样轨迹的回报来更新参数： [ \nabla_\theta J \approx \frac{1}{N}\sum_{\tau} \sum_{t} \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot G_t ] 其中(G_t)是从(t)时刻开始的累积折扣奖励（Return）。

REINFORCE 是最基础的策略梯度算法，但方差大。实践中会使用Actor-Critic框架：一个Actor网络（策略(\pi)）负责挑选动作，一个Critic网络（值函数(V(s))或(Q(s,a))）评估该动作有多好，用优势函数(A(s,a)=Q(s,a)-V(s))来降低梯度方差。A2C/A3C在推荐仿真中表现优秀。

PPO（Proximal Policy Optimization） 是目前落地最稳的算法，通过剪裁约束限制策略更新幅度，保持训练稳定。在快手、YouTube的某些推荐场景中，PPO被用于优化长期用户参与度。

5.3 离线强化学习：从历史日志中学

理想很丰满，现实是直接在线训练RL推荐会面临巨大的试错成本：胡乱推荐导致用户直接流失。因此离线强化学习（Offline RL），也叫批量强化学习（Batch RL），从已收集的交互日志中学习，而不与环境实时交互。

关键挑战是分布偏移：学习到的策略可能选择日志中很少出现的动作，导致Q值过高估计。常用方案：

CQL（Conservative Q-Learning）：给未见过的动作的Q值增加惩罚，使之保守。
BCQ（Batch-Constrained Q-Learning）：只考虑数据中出现过的动作，通过生成扰动来拓宽策略。
IQL（Implicit Q-Learning）：避免查询分布外的动作，通过期望回归估计值函数。

离线RL特别适合从历史A/B测试数据中挖掘提升长期价值的策略，再小流量上线验证。

6. 训练与评估：离线评估是最大难点

监督学习中，我们可以简单地划分训练/测试集，计算AUC。在RL推荐中，策略的评估本质是反事实的：如果用了不同的策略，会发生什么？

常用的离线评估方法：

重要性采样（Importance Sampling）：根据行为策略(\pi_b)的日志，估计目标策略(\pi_e)的性能。权值为轨迹概率之比，但方差极大，需使用加权重要性采样（WIS）或逐步折扣重要性采样（PDIS）。
直接方法（Direct Method）：训练奖励模型和转移模型，直接在模拟环境里评估，但模型误差会累积。
双重稳健估计（Doubly Robust）：结合直接模型与重要性采样，只要其中一个正确，估计就是无偏的。

在线评估最终以A/B实验为准，指标使用长期会话级指标，如：人均观看时长、次日留存率、用户整体LTV等。

7. 实践中的工程挑战与落地建议

实时流式处理：RL推荐需要将用户实时反馈形成轨迹，送入模型持续学习。这要求搭建流式特征引擎、在线推断服务、模型热更新管道。
奖励延迟严重：购买可能发生在推荐后的几天，留存更是长期指标。可以采用奖励分发技术，将长期奖励按贡献反向分配给每一步动作（基于TD学习或注意力机制）。
探索安全问题：线上探索不能太飘。通常结合一个安全策略（如精排模型），将其作为基础策略，并限制探索策略与基础策略的KL散度，兼顾探索与体验。
系统整体一致性：推荐系统往往包含召回、粗排、精排等多个漏斗。强化学习更适合用于精排或重排层，控制最终展示列表，与下层的有监督模型协同工作。
冷启动与公平性：新内容和新用户需要额外探索机制，如添加UCB项到策略输出，或设计随机化探索层。

8. 总结与学习路径

强化学习推荐将用户的生命周期旅程看作一个整体，通过序列决策最大化长期价值，是对“无远见的CTR预测”的革命性补充。它让你重新思考：推荐不是一次答对的选择题，而是一场与用户共同经历的漫长对话。

学习路径建议：

入门：David Silver的强化学习课程（前8讲），理解MDP、策略梯度、Q-Learning。
理论：阅读《Reinforcement Learning: An Introduction》第二版，重点第4、6、13章。
领域论文：从“DRN: A Deep Reinforcement Learning Framework for News Recommendation”（2018）开始，再读“Top-K Off-Policy Correction for a REINFORCE Recommender System”（Google, 2019），最后深入离线RL论文如CQL、IQL。
实践：在RecSim或VirtualTaobao等推荐仿真环境中跑通PPO推荐流程，再尝试在私域数据上实现离线RL baseline。

强化学习推荐正从学术走向大规模工业应用，掌握这一思想，将使你站在推荐系统技术的下一个浪潮之巅。