CRNN：卷积循环网络进行序列化文字识别

FreeGuideOnline 最新 2026-06-25

什么是CRNN

CRNN（Convolutional Recurrent Neural Network，卷积循环神经网络）是一种将卷积神经网络（CNN）与循环神经网络（RNN）相结合的端到端序列识别模型。它在场景文字识别、手写体识别等任务中取得了突破性成果，能够直接从图像像素中预测出变长文本序列，无需预先进行字符分割。

CRNN 的核心思想是：利用 CNN 提取图像的局部特征，再将特征序列输入双向 RNN 捕捉上下文依赖，最后通过 CTC（Connectionist Temporal Classification）解码层完成序列到文字的转换。整个过程可以端到端训练，极大简化了传统 OCR 流水线中的字符切割、单字识别、语言模型后处理等步骤。

CRNN 的整体架构

CRNN 由三个主要模块组成，它们依次串联形成一个可微分的前向计算图。

卷积层（特征提取）

输入为包含文字行的灰度或彩色图像，尺寸通常调整为固定高度（如 32 像素）并保持宽高比缩放。卷积层一般由若干卷积块和池化层堆叠而成，它将二维图像映射为一组高度为 1 的特征图序列。

结构设计：常见的骨干网络是 VGG 风格的深层卷积，最后几层池化会将高度逐步压缩至 1，宽度方向上保留足够多的特征向量（每个向量对应原图一个局部感受野）。
输出形式：产生形状为 (batch, channels, 1, width) 的特征图，去除高度维度后得到长度为 T 的特征序列，每个时间步的特征向量维度为 D（channels 数）。这个序列与原始图像水平方向上的位置一一对应。

循环层（序列建模）

从卷积层得到的特征序列仍然只是局部视觉特征，需要利用双向长短时记忆网络（BiLSTM）或双向门控循环单元（BiGRU）来建模长距离的上下文关系。

为什么用双向 RNN：文字的识别强烈依赖前后文，例如字母 “c” 与 “e” 局部相似，但结合上下文可以准确区分。双向结构同时考虑过去和未来的信息，对每个时间步输出一个融合了上下文的高层语义表示。
堆叠方式：通常堆叠两层或更多层 BiLSTM，每层隐藏单元数相同。堆叠加深可以捕获更复杂的序列模式。
输出：每个时间步生成一个概率分布向量（维度等于字符集大小加空标签），但此时尚未做对齐决策，只是产生了原始预测分数。

转录层（CTC 解码）

这是将逐帧预测转换为最终文本的关键。输入序列长度 T 通常不等于输出文本的字符数，这是因为卷积下采样和池化导致特征图宽度与实际字符宽度存在比例关系。CTC 引入一个空标签 blank 来解决对齐问题。

CTC 损失函数：在训练时，CTC 直接最大化给定输入序列下正确标签序列的概率，它会自动枚举所有可能的对齐路径（允许插入空白与重复标签）。这使得模型无需预先标注每个字符的位置信息，只需要整行文本标注。
解码策略：推理时，最简单的方法是贪心解码——取每帧最大概率字符，然后去除连续的重复字符并删除空标签，得到最终文本。也可以使用前缀束搜索（beam search）来进一步提升准确率，尤其是结合语言模型时。
关键优势：端到端可微，无需分段标注，对倾斜、扭曲、模糊等形变鲁棒性强。

为什么 CRNN 如此有效

CRNN 的成功源于三个模块的协同作用，它在多个维度解决了文字识别的核心挑战。

处理任意长度的文本

传统方法需要将图像分割成单个字符再逐一识别，这要求精确的字符定位，而分割错误会直接导致识别失败。CRNN 通过序列到序列的框架天然兼容可变长度输出，无论图像中包含多长的单词或句子，都能一次完成识别。

无需字符级标注

制作字符级位置标注极其昂贵，CRNN 仅需要文本行级别的标注（即整行文字的字符串），大大降低了数据准备成本。CTC 损失函数从没有对齐的标签中学习，自动化了对齐过程。

多尺度特征与鲁棒的表征

CNN 的多层特征层次可以捕获边缘、纹理、部件等不同级别的视觉模式，对字体风格、大小、颜色、背景干扰具备较强的泛化能力。双向 RNN 则将孤立特征编织成有语义的序列模式，甚至能根据上下文修正局部识别错误。

端到端联合优化

三个模块在一个计算图中联合训练，特征提取、序列建模和转录互相适应，不会出现传统流水线中“各模块独立优化导致整体次优”的问题。

从零理解 CRNN 的工作流程

以下是一个文字识别实例在 CRNN 中的流动过程，帮助初学者建立直观认识。

输入图像：一张宽度为 200 像素、高度为 32 像素的图片，内容为 “Hello”。
卷积处理：经过一系列卷积和池化，高度降至 1，宽度可能变为 25（取决于步长）。得到 25 个特征向量，每个向量 512 维，对应原图的 25 个横向位置。
序列建模：25 个特征向量依次送入两层 BiLSTM，每个时间步输出一个维度为字符集大小（比如 36 类：26 字母+10 数字）的 score 向量。双向 RNN 让每个时刻的输出都吸收了整行信息。
转录输出：CTC 贪心解码逐帧选出最高分字符并合并重复，删除空白，最终得到 “Hello”。例如预测序列可能是 HH-e-ll-ll-oo，压缩后得到 Hello。

CRNN 的实战搭建（PyTorch 示例）

为帮助理解，这里展示一个简化版的 CRNN 模型类，说明各部分的组织方式。

import torch
import torch.nn as nn

class CRNN(nn.Module):
    def __init__(self, imgH, nc, nclass, nh):
        super(CRNN, self).__init__()
        # 卷积层：VGG风格
        self.cnn = nn.Sequential(
            nn.Conv2d(nc, 64, 3, 1, 1), nn.ReLU(True), nn.MaxPool2d(2,2),  # 64x16xW
            nn.Conv2d(64, 128, 3, 1, 1), nn.ReLU(True), nn.MaxPool2d(2,2), # 128x8xW
            nn.Conv2d(128, 256, 3, 1, 1), nn.BatchNorm2d(256), nn.ReLU(True),
            nn.Conv2d(256, 256, 3, 1, 1), nn.ReLU(True),
            nn.MaxPool2d((2,1),(2,1)),  # 高减半，宽不动
            nn.Conv2d(256, 512, 3, 1, 1), nn.BatchNorm2d(512), nn.ReLU(True),
            nn.Conv2d(512, 512, 3, 1, 1), nn.ReLU(True),
            nn.MaxPool2d((2,1),(2,1)),  # 高降到1
            nn.Conv2d(512, 512, 2, 1, 0), nn.ReLU(True)  # 最终高为1
        )
        # RNN 部分：两层双向LSTM
        self.rnn = nn.LSTM(512, nh, 2, bidirectional=True, batch_first=True)
        # 全连接分类层
        self.fc = nn.Linear(nh * 2, nclass)

    def forward(self, x):
        # CNN 提取特征
        conv = self.cnn(x)          # (batch, 512, 1, seq_len)
        b, c, h, w = conv.size()
        assert h == 1, "高度必须为1"
        conv = conv.squeeze(2)       # (batch, 512, seq_len)
        conv = conv.permute(0, 2, 1) # (batch, seq_len, 512)
        # RNN 序列建模
        rnn_out, _ = self.rnn(conv)  # (batch, seq_len, nh*2)
        # 分类预测
        output = self.fc(rnn_out)    # (batch, seq_len, nclass)
        return output.log_softmax(2) # CTC 损失需要 log 概率

训练时使用 PyTorch 的 CTCLoss，调用方式如下：

ctc_loss = nn.CTCLoss(blank=0, zero_infinity=True)
loss = ctc_loss(log_probs, targets, input_lengths, target_lengths)

提升 CRNN 性能的关键技巧

在实际项目中，以下几个方面可以显著改善识别准确率。

数据增强

几何变换：随机缩放、旋转、透视变换，模拟真实场景下的拍摄角度变化。
颜色与噪声：调整对比度、亮度，添加高斯噪声、模糊，增强模型对图像质量的鲁棒性。
合成数据生成：使用多种字体、背景图片合成海量训练样本，是低成本解决数据稀缺问题的最佳实践之一。

骨干网络升级

用更强大的 CNN 替换 VGG，例如 ResNet、MobileNet、EfficientNet，能在保持或提升精度的同时减少计算量。特征提取器通常只保留到高度降为 1 的层，并去掉全局平均池化。

使用残差 RNN 或 Transformer

当序列长度较大时，深层 RNN 可能出现梯度问题。残差连接可以稳定深层 BiLSTM 训练。近年来，基于自注意力机制的 Transformer 模块也被引入替代 RNN，形成图片到序列的架构，如 TrOCR 和 SATRN，但结构更加复杂，算力需求也更高。

加入语言模型

在解码阶段，通过浅层融合（shallow fusion）或重打分的方式引入 N-gram 语言模型或神经语言模型，可根据语词合理性修正同音、形近字错误。例如，识别结果 “recognition” 被误认为 “recoginition”，语言模型能提高前者的概率。

CRNN 的典型应用场景

场景文字识别：街道招牌、店面名称、路牌等自然场景下的文字提取，是自动驾驶、增强现实的基础技术。
卡证票据识别：身份证、银行卡、营业执照、购物小票的字段提取，要求高准确率并适应复杂版式。
文档数字化：扫描书籍、历史档案的文本行识别，支持多种语言与字体。
工业视觉：产品序列号、包装标签的自动读取，常结合图像预处理解决字符粘连、背景干扰问题。

CRNN 的局限与未来方向

尽管 CRNN 功能强大，但也存在一些不足：

弯曲文字的识别：CRNN 原始设计中假设字符沿着一条大致水平的基线排布，对严重弯曲或环状文字效果不佳。后续工作如 RARE、ASTER 引入了空间变换网络（STN）来矫正文字行。
二维文字布局：对于表格、公式等需要二维空间建模的场景，纯一维序列建模不适用，需要网格或基于注意力机制的解码器。
长文本处理：当文本超长时，RNN 的记忆能力受限，Transformer 模型以全局注意力机制逐渐成为主流。
运算效率：RNN 的串行计算在 GPU 上不易并行，在端侧部署时需仔细优化，或采用全卷积序列模型（如 CRNN-like 的 FCN + CTC 变体）来加速推理。

总结

CRNN 作为图像序列识别的经典范式，以简洁优雅的方式打通了 CNN、RNN 与 CTC 的组合，让文字识别从复杂的多步流水线走向端到端学习。它至今仍是许多 OCR 系统的基石，理解其设计理念和实现细节，是深入光学字符识别领域的重要一步。

掌握了 CRNN 的原理与实践，你将能够快速构建可用的文字识别模型，并在此基础上探索更先进的文本检测与识别联合框架。