实时推荐系统架构：流处理与特征服务

FreeGuideOnline 最新 2026-06-23

实时推荐系统架构：从批处理到流处理

推荐系统正在从“每天更新一次”的时代，全面转向“实时响应每一次行为”的时代。用户点击、加购、观看、退出——这些行为应在秒级甚至毫秒级内影响后续的推荐结果。本教程将带你系统了解现代实时推荐系统的核心架构，重点解析流处理与特征服务两大支柱。

传统的 T+1 推荐链路存在明显的体验断层：

实时推荐的核心目标，是让系统拥有“即时记忆”与“即时反应”能力，将用户当下的上下文和最新的全局信号融合进排序逻辑。

一个典型的实时系统可以分为四层逻辑管道：

我们将重点聚焦在流处理与特征服务这两个承上启下的关键环节。

用户在前端的每一次点击、滑动、播放，都会被封装成事件，通过 Kafka、Pulsar 等高吞吐的消息队列送入流处理引擎。事件通常包含：

对于高可靠的实时推荐，Flink 通常作为主流选择，因为它能够同时支持精确的状态管理和复杂的事件时间窗口。

在流处理作业中，我们并非只做简单的计数，而是需要实时计算大量行为特征：

这些特征往往使用 Flink 的 KeyedState 和 Window Function 来实现。例如，一个滑动窗口（10 分钟，每 1 分钟刷新）计算用户对各种品类的活跃度，并将结果写入下游存储。

过去 Lambda 架构要求维护批计算与流计算两套代码。现在，Flink + 数据湖（如 Iceberg/Paimon） 的流批一体方案逐渐普及。同一套 Flink 作业既可处理实时增量数据，又可回溯历史存量数据，保证特征的大规模准确性与实时性。

流处理产出的实时特征，必须能在毫秒级内被推荐排序服务拿到，这就是特征服务（Feature Serving）的责任。

常见的特征存储方案：

存储	类型	优势	劣势
Redis/Hazelcast	内存 KV	极低延迟，成熟稳定	内存成本高，复杂结构支持弱
RocksDB + 本地缓存	嵌入式	低成本，适合超大特征值	需要自建同步机制
Feature Store 专用方案（如 Feast、Tecton）	托管平台	一致性强，特征可复用	引入额外基础设施复杂度

Flink 实时聚合 → Redis Cluster（热数据层） → 推荐服务在内存中组装特征向量 → 模型推理

为确保极低延迟，推荐服务内部通常会设置两级缓存：本地线程内缓存 + 分布式缓存。需要特别处理缓存一致性，一般通过特征版本号（ttl 或条件更新）来避免脏读。

建议所有特征以 实体标识（entity_key） 作为主键进行组织：

同时，为每个特征绑定类型（数值、向量、字符串）和元数据（更新时间、空值策略）。这样有利于测试、监控和自动化特征拼装。

当实时特征已经就绪，在线推荐服务即可执行：

这里的实时模型可以是：

实时推荐系统链路长，任一环节异常都可能影响用户体验。需重点监控：

建议为每个特征定义 SLO（服务等级目标），并设置自动化告警。

实时推荐并非推翻原有离线系统，而是在其基础上增加一层“即时感知”的神经末梢。掌握流处理做计算、特征服务做供给的核心模式，你就有能力设计出响应迅速、体验流畅的下一代推荐系统。