FairMOT:公平对待检测与重识别的多目标跟踪

FreeGuideOnline 最新 2026-06-19

FairMOT 多目标跟踪入门教程

多目标跟踪(MOT)旨在同时定位视频中多个目标并维持其身份标识。FairMOT 是一种经典的联合检测与重识别(ReID)框架,其核心思想是在单个网络中公平地对待检测与重识别任务,解决了以往方法中两个任务相互竞争或优先级不平衡的问题。本教程将带你理解 FairMOT 的原理、架构、训练与推理流程。


1. FairMOT 解决了什么问题

在 FairMOT 出现之前,大多数联合检测与 ReID 的跟踪器存在一个关键缺陷:检测与重识别分支对主干网络特征的利用是不对等的。常见做法是以检测为中心,重识别只是检测的一个附属输出,导致提取的外观特征对拥挤场景或遮挡不鲁棒。FairMOT 提出两个基本原则:

  • Anchor-Free 检测头:避免 Anchor-Based 方法中多个锚框对同一目标产生不一致的外观特征。
  • 并行且等权的多任务学习:检测分支与 ReID 分支共享同一骨干特征,但在结构上并行处理,使两个任务同等重要。

2. 网络架构总览

FairMOT 的整体结构由三部分组成:骨干网络、检测分支和重识别分支。

2.1 骨干网络:DLA-34

FairMOT 采用 Deep Layer Aggregation (DLA) 的一种变体 DLA-34 作为特征提取器。DLA 的核心优势在于通过迭代深度聚合融合多尺度信息,既能保留空间细节又兼顾语义信息,非常适合逐像素预测任务。

DLA-34 中融合了可变性卷积(Deformable Convolution),以自适应目标形变与尺度变化。骨干网络输出特征图的分辨率为输入图像的 1/4。

2.2 检测分支(Anchor-Free)

检测分支基于 CenterNet 结构,将目标表示为边界框中心的单个点。它为每个位置预测三个要素:

  • 热力图(Heatmap):预测每个位置属于目标中心的概率,类别数为目标类别数(通常只处理“行人”一类)。
  • 边界框尺寸(Box Size):预测目标中心对应的宽和高。
  • 中心偏移(Center Offset):因下采样导致的量化误差,需预测亚像素级偏移以精确定位。

这种方式天然避免了锚框带来的特征对齐问题,使得一个目标只对应特征图上一个点,重识别特征可从该点的特征向量直接提取。

2.3 重识别分支(ReID 分支)

ReID 分支为特征图的每个位置预测一个 128 维(或 256 维)的外观嵌入向量。训练时,只将热力图中目标中心位置的嵌入向量与真实身份标签进行比较,属于同一身份的嵌入应彼此接近,不同身份的嵌入应相互远离。

关键在于:检测和 ReID 分支并行作用于 DLA-34 输出的同一特征图,没有先后依赖,从而真正实现“公平”。


3. 训练策略与损失函数

FairMOT 的总损失是检测损失与 ReID 损失的加权求和。

3.1 检测损失

检测分支损失如下:

  • 热力图损失:采用改进的 Focal Loss,对容易像素降低权重,专注于难分样本。
  • 尺寸与偏移损失:均使用 L1 损失(Smooth L1 可选)。尺寸损失回归宽高,偏移损失修正中心位置。

总检测损失 L_detection = L_heatmap + λ_size * L_size + λ_offset * L_offset

3.2 重识别损失

ReID 损失采用 三元组损失(Triplet Loss)与交叉熵损失的结合,既拉近类内距离又推远类间距离。特征提取后通过一个全连接层得到分类分数,在训练集中行人的 ID 作为分类类别,同时三元组损失直接在嵌入空间做度量学习。

只有热力图上中心点位置参与损失计算,背景点被忽略,避免大量负样本干扰。

3.3 联合训练平衡

检测损失的尺度通常远大于 ReID 损失,FairMOT 通过自动或手动调整损失权重,使两个损失的量级接近。启用不确定加权(Uncertainty Weighting)或多任务平衡策略也能提升训练稳定性。


4. 推理与在线跟踪

推理阶段,视频帧依次通过网络,获得检测结果和对应的外观嵌入。

4.1 目标解码

从热力图提取局部峰值(通过 3x3 最大池化),选取置信度高于阈值的点作为候选中心。结合预测的偏移和尺寸还原边界框。

4.2 在线关联

FairMOT 通常与 卡尔曼滤波匈牙利算法 组合实现在线关联:

  • 使用卡尔曼滤波预测每个已有轨迹在当前帧的位置。
  • 计算检测框与轨迹预测框之间的交并比(IoU)以及外观嵌入之间的余弦相似度。
  • 融合运动匹配度和外观相似度构建代价矩阵,通过匈牙利算法进行指派。
  • 未匹配的高分检测初始化新轨迹,未匹配的轨迹短暂保留为“丢失”状态,超过时限删除。

运动与外观的融合权重可根据场景调整(如拥挤场景外观权重更高)。


5. 核心优势与适用场景

5.1 核心优势

  • 公平架构:避免检测压制 ReID,得到高质量外观特征,显著改善遮挡后的重识别。
  • 简单高效:单网络一次前向传播即完成检测与特征提取,推理速度快(在 GPU 上可达 30 FPS)。
  • 以中心点对齐特征:消除了锚框导致的目标特征不一致问题,使 ID 切换大幅减少。

5.2 适用场景

  • 行人多目标跟踪(MOT17/20 等公开基准上表现卓越)。
  • 车辆跟踪、动物行为分析等需要同时定位和区分个体的任务。
  • 实时安防监控、自动驾驶中的多智能体感知。

6. 实际使用与调优建议

  • 数据准备:将标注转换为 MOT 格式,或使用如 CrowdHuman 等多样数据集联合训练提升泛化性。
  • 预训练模型:DLA-34 主干通常在 COCO 上做检测预训练,然后再进行 MOT 多任务微调。
  • 跟踪超参数设置:根据场景调整检测置信度阈值、外观余弦相似度阈值以及丢失轨迹存活帧数(max_age)。
  • 常见问题:如果 ID 切换过多,提高 ReID 损失权重或增加外观特征维度;如果漏检较多,降低热力图阈值或微调尺寸损失权重。

7. 总结与下一步

FairMOT 通过将检测与 ReID 置于对等地位,结合 Anchor-Free 中心表示,提供了一个强大且易复现的多目标跟踪基线。理解其公平性设计理念,能帮助你更好地设计自己的联合检测-跟踪系统。

下一步你可以:

  • 阅读官方 FairMOT 代码(基于 PyTorch),从头跑通训练与评估。
  • 尝试替换骨干网络(如 ResNet 结合 FPN)并观察公平性变化。
  • 将 FairMOT 思路扩展到其他类别目标(如车辆、足球运动员)进行迁移学习。

掌握 FairMOT 将使你深入理解现代端到端多目标跟踪的核心设计哲学。