设计推荐系统：召回、排序与重排

FreeGuideOnline 最新 2026-06-19

推荐系统核心流程：从海量内容到精准推荐

推荐系统负责在用户与海量物品之间建立连接。一个工业级推荐系统通常将推荐过程拆分为 召回 (Recall)、排序 (Ranking) 和 重排 (Re-rank) 三个递进阶段。这种漏斗式架构可以在保证推荐效果的同时，严格控制计算耗时，使系统具备实时响应能力。

召回阶段的目标是从百万乃至亿级别的全量物品库中，快速筛选出数百到数千个用户可能感兴趣的候选物品。这一阶段要求极高的计算效率，常用策略包括：

单一召回方式容易存在盲区，工业界普遍采用多路召回并行的方式，后续再进行合并去重。

基于用户画像的召回：根据用户的基础属性（年龄、地区等）或长期兴趣标签，匹配对应物品池。
基于协同过滤的召回：
- Item-based CF：计算物品间的相似度，推荐与用户历史行为物品相似的物品。
- User-based CF：找到与目标用户相似的用户群，推荐他们喜欢的物品。
基于向量的召回：将用户和物品映射到同一向量空间，通过近似最近邻搜索快速找到与用户向量最接近的物品向量。双塔模型是该类方法的典型代表。
基于热度的召回：作为冷启动或兜底策略，补充全局热门内容。
基于图的召回：利用随机游走、图神经网络等方法，挖掘用户-物品交互图中的高阶关联。

召回阶段侧重评估 覆盖率 与 召回率。需要监控每条召回通道的占比、命中率以及总的召回覆盖率，避免优质内容因通道失效而无法进入后续环节。

排序阶段接收到召回的数千个候选物品，核心任务是利用复杂的模型和丰富的特征，精确预估用户对每个物品的点击率、转化率、停留时长等目标，并据此进行粗排到精排的筛选。

精排模型往往结构复杂、耗时长，难以对全部召回结果打分。粗排环节承上启下，使用相对轻量的模型（如双塔、简化版深度神经网络）将候选集从数千个进一步压缩到数百个，同时尽可能保持与精排一致的质量排序。

精排是推荐系统的核心大脑，运用大量特征进行深度交叉和序列建模。

特征体系：
- 用户侧：基础属性、长期统计特征、短期行为序列、实时上下文（时间、网络状态）。
- 物品侧：静态属性、历史表现统计、多模态嵌入表示。
- 交叉特征：用户-物品共现统计、用户类别偏好程度。
经典模型演进：
- Wide & Deep / DeepFM：联合记忆（特征交叉）与泛化能力。
- DIN / DIEN：引入注意力机制处理用户行为序列，捕获动态兴趣。
- 多任务学习（ESMM / PLE）：同时预估点击率与转化率等关联目标，缓解样本选择偏差。
训练目标：点级损失（二分类交叉熵）配合辅助目标（如信息熵、梯度冲突缓解），并引入位置偏差等消偏策略。

经过精排得到排序列表后，如果仅按分数从高到低展示，往往会出现视觉同质化、相关性断层等问题。重排阶段在精排结果的基础上进行二次调整，优化序列的整体效用与多样性。

将召回、排序、重排串联为一个可用的推荐系统，需兼顾在线与离线链路。

在线服务层：使用高性能服务器，通过并发方式请求多条召回通路，聚合后送入粗排、精排、重排模型。每个环节需设置超时和降级逻辑，当精排超时时自动退回粗排结果。
近线/离线数据层：实时行为日志经 Kafka 等消息队列，进入 Flink 流处理生成实时特征；离线 Spark 任务负责模型全量训练和物品向量更新。
模型工程：模型可通过 TensorFlow Serving 或 TorchServe 部署，支持模型热更新和 A/B 实验框架。
特征平台：提供统一的特征注册、回流、在线获取服务，确保训练和推理时的特征一致性。

离线指标只能作为参考，真实的迭代效果必须通过在线实验验证。

通过环环相扣的召回、排序与重排设计，再辅以稳定的工程架构和严谨的评估闭环，方能构建一个高效且持续优化的推荐系统。