循环神经网络 RNN：处理序列数据

FreeGuideOnline 最新 2026-06-16

为什么需要循环神经网络

大多数传统神经网络（如全连接网络、卷积网络）都假设输入之间相互独立，比如图像分类中每张图片是独立的。但现实世界中大量数据具有序列依赖性：文本的上下文、语音的时序波形、股票的每日价格、生物序列的碱基排列等。序列中前后元素严格相关，模型必须“记住”过去的信息才能理解当前的含义。标准前馈网络无法自然处理这种时间/顺序维度，因为它的输入是一次性提供的固定向量，没有记忆。

循环神经网络（Recurrent Neural Network, RNN） 正是为序列数据而设计的。它在网络中引入了“状态”的概念，使得当前时刻的输出不仅取决于当前输入，还依赖上一时刻的隐藏状态。这一机制让RNN能够捕获时间步之间的依赖关系，理论上可以处理任意长度的序列。

核心思想：在时间上展开

基本结构

RNN的核心是一个重复使用的单元（Cell）。对于每个时间步 $t$，其运算可分成两步：

隐藏状态更新 [ h_t = \sigma(W_{h} h_{t-1} + W_{x} x_t + b) ] 其中 $x_t$ 是当前输入向量，$h_{t-1}$ 是上一时间步的隐藏状态，$W_h$ 和 $W_x$ 是权重矩阵（分别对应循环连接和输入连接），$b$ 是偏置，$\sigma$ 是非线性激活函数（常用 tanh 或 ReLU）。
输出生成 [ y_t = \phi(W_{y} h_t + b_y) ] $W_y$ 是输出权重矩阵，$\phi$ 取决于任务（如分类用 softmax，回归用恒等映射）。

同一个RNN单元在不同时间步之间共享参数（$W_h, W_x, W_y, b$ 等），这意味着无论序列多长，模型参数量固定，学到的规则可以应用到序列的任何位置。

沿时间展开的计算图

将RNN运算沿时间步展开，可以清楚地看到信息流：

   o_t-1      o_t       o_t+1
    ↑          ↑          ↑
   Wh         Wh         Wh
    ↑          ↑          ↑
... h_t-1 → → h_t → →  h_t+1 → ...
    ↑          ↑          ↑
   Wx         Wx         Wx
    ↑          ↑          ↑
   x_t-1      x_t       x_t+1

每一步的隐藏状态 $h_t$ 充当了“记忆”，将历史信息传递到未来。这使得RNN天然适合多种序列建模任务：

序列到单个输出：文本情感分析，输入一段评论，输出正面/负面标签，使用最后时刻的 $h_T$ 进行分类。
序列到序列（同步）：词性标注，每个输入的词对应一个标签，使用每个时刻的 $y_t$。
序列到序列（异步）：机器翻译，输入源语言序列后生成目标语言序列（编码器‑解码器架构）。

RNN的训练：穿越时间的反向传播

训练RNN普遍使用通过时间反向传播（Backpropagation Through Time, BPTT）。因为参数共享，计算梯度时必须考虑当前时刻的输出对历史时刻参数的依赖。

具体做法是将网络沿时间展开成一个极深的前馈网络（层数等于序列长度），然后应用标准的链式法则求导。损失函数通常定义在所有（或部分）时间步的输出上： [ L = \sum_t L_t(y_t, \hat{y}t) ] 对于参数 $W_h$，梯度为： [ \frac{\partial L}{\partial W_h} = \sum_t \frac{\partial L_t}{\partial W_h} ] 而 $\frac{\partial L_t}{\partial W_h}$ 又需要沿时间反向传播，涉及连乘 $ \prod{k=i}^{t} \frac{\partial h_{k}}{\partial h_{k-1}} $。

计算挑战：当序列很长时，雅可比矩阵的连乘容易导致梯度消失或爆炸。梯度爆炸可以通过梯度裁剪缓解，但梯度消失会使模型无法学习到长期依赖。这正是传统RNN的核心痛点。

长期依赖问题与门控改进

梯度消失的本质

在标准RNN中，隐藏状态的递推关系是 $h_t = \sigma(W_h h_{t-1} + \dots)$。对 $h_{t-1}$ 求导会产生因子 $W_h^T \cdot \text{diag}(\sigma')$。如果 $W_h$ 的特征值小于1，经过多次连乘后梯度呈指数衰减；若特征值大于1，则呈指数爆炸。tanh激活函数的导数最大值为1，通常饱和时接近0，因此梯度消失更容易发生。这样，时间步距离较远的两个词之间的依赖关系很难被捕捉。

LSTM：长短期记忆网络

LSTM（Long Short‑Term Memory）通过精巧的门控机制和细胞状态显式控制信息流动，缓解了梯度消失，成为实际应用的首选。

LSTM单元包含三个门和一个细胞状态 $C_t$：

遗忘门 $f_t = \sigma(W_f [h_{t-1}, x_t] + b_f)$
决定从上一时刻细胞状态 $C_{t-1}$ 中丢弃哪些信息。
输入门 $i_t = \sigma(W_i [h_{t-1}, x_t] + b_i)$ 和 候选细胞状态 $\tilde{C}t = \tanh(W_C [h{t-1}, x_t] + b_C)$
决定哪些新信息存入细胞状态。
细胞状态更新： [ C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}t ] 由于 $C_t = C{t-1} + \dots$ 的加法形式，梯度可以沿细胞状态平滑回流，大大减轻了消失问题。
输出门 $o_t = \sigma(W_o [h_{t-1}, x_t] + b_o)$
控制从细胞状态输出多少信息用作隐藏状态：
( h_t = o_t \odot \tanh(C_t) )

LSTM将短期记忆（隐藏状态）和长期记忆（细胞状态）分离，实现了高效的长期依赖捕获。

GRU：门控循环单元

GRU（Gated Recurrent Unit）是LSTM的轻量变体，它将遗忘门和输入门合并成一个更新门 $z_t$，并用重置门 $r_t$ 控制历史状态被忽略的程度。GRU没有单独的细胞状态，直接传递隐藏状态，参数更少，计算更快，在很多任务中表现与LSTM相当。

更新门：$z_t = \sigma(W_z [h_{t-1}, x_t])$
重置门：$r_t = \sigma(W_r [h_{t-1}, x_t])$
候选隐藏状态：$\tilde{h}t = \tanh(W [r_t \odot h{t-1}, x_t])$
最终隐藏状态：$h_t = (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t$

应用场景全景

RNN及其变体几乎统治了所有序列建模任务，直至Transformer架构兴起前，一直是NLP和时序分析的基石。

自然语言处理：语言模型（预测下一个词）、机器翻译、文本摘要、情感分析、对话系统。
语音与音频：语音识别（声学模型）、语音合成（TTS）、音乐生成。
时间序列预测：股票价格预测、天气预测、设备传感器异常检测。
生物信息学：蛋白质二级结构预测、DNA序列功能预测。
视频分析：视频动作识别（帧序列）、视频描述生成。

基础实现示例（Keras）

以下是一个用Keras构建简单RNN进行IMDB电影评论情感分类的示例，便于快速理解流程。

from tensorflow.keras.datasets import imdb
from tensorflow.keras.preprocessing import sequence
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, SimpleRNN, Dense

# 参数
max_features = 10000   # 词汇表大小
maxlen = 500           # 截断/填充长度
batch_size = 32

# 加载数据
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=max_features)
x_train = sequence.pad_sequences(x_train, maxlen=maxlen)
x_test = sequence.pad_sequences(x_test, maxlen=maxlen)

# 构建模型
model = Sequential()
model.add(Embedding(max_features, 128))       # 词嵌入层
model.add(SimpleRNN(128, dropout=0.2, recurrent_dropout=0.2))
model.add(Dense(1, activation='sigmoid'))     # 二分类

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.fit(x_train, y_train, batch_size=batch_size, epochs=5, validation_data=(x_test, y_test))

改进版只需将 SimpleRNN 替换为 LSTM 或 GRU 层即可直接获得更好性能。

局限性与现代演进

RNN计算本质上是顺序的，即计算 $h_t$ 必须等待 $h_{t-1}$，难以并行化。当序列极长时，即使LSTM也无法完美记住最初的信息。这些限制催生了Transformer和自注意力机制，完全摒弃循环结构，通过全局注意力直接建模序列中任意两个位置的关系，并实现高度并行训练。如今Transformer已成为自然语言处理的主流架构，但理解RNN依然是深入掌握序列建模和现代深度学习演进路径的必修课。

总结

RNN针对序列数据设计，通过隐藏状态传递时序信息。
参数沿时间步共享，模型大小不随序列增长。
训练采用BPTT，长期依赖导致梯度消失/爆炸。
LSTM和GRU引入门控机制和加法状态转移，是实际应用的标准组件。
RNN广泛用于NLP、语音、时间序列等领域，虽已逐渐被Transformer超越，但其原理和设计思想仍然至关重要。