FairMOT：公平对待检测与重识别的多目标跟踪

FreeGuideOnline 最新 2026-06-19

FairMOT 多目标跟踪入门教程

多目标跟踪（MOT）旨在同时定位视频中多个目标并维持其身份标识。FairMOT 是一种经典的联合检测与重识别（ReID）框架，其核心思想是在单个网络中公平地对待检测与重识别任务，解决了以往方法中两个任务相互竞争或优先级不平衡的问题。本教程将带你理解 FairMOT 的原理、架构、训练与推理流程。

1. FairMOT 解决了什么问题

在 FairMOT 出现之前，大多数联合检测与 ReID 的跟踪器存在一个关键缺陷：检测与重识别分支对主干网络特征的利用是不对等的。常见做法是以检测为中心，重识别只是检测的一个附属输出，导致提取的外观特征对拥挤场景或遮挡不鲁棒。FairMOT 提出两个基本原则：

Anchor-Free 检测头：避免 Anchor-Based 方法中多个锚框对同一目标产生不一致的外观特征。
并行且等权的多任务学习：检测分支与 ReID 分支共享同一骨干特征，但在结构上并行处理，使两个任务同等重要。

2. 网络架构总览

FairMOT 的整体结构由三部分组成：骨干网络、检测分支和重识别分支。

2.1 骨干网络：DLA-34

FairMOT 采用 Deep Layer Aggregation (DLA) 的一种变体 DLA-34 作为特征提取器。DLA 的核心优势在于通过迭代深度聚合融合多尺度信息，既能保留空间细节又兼顾语义信息，非常适合逐像素预测任务。

DLA-34 中融合了可变性卷积（Deformable Convolution），以自适应目标形变与尺度变化。骨干网络输出特征图的分辨率为输入图像的 1/4。

2.2 检测分支（Anchor-Free）

检测分支基于 CenterNet 结构，将目标表示为边界框中心的单个点。它为每个位置预测三个要素：

热力图（Heatmap）：预测每个位置属于目标中心的概率，类别数为目标类别数（通常只处理“行人”一类）。
边界框尺寸（Box Size）：预测目标中心对应的宽和高。
中心偏移（Center Offset）：因下采样导致的量化误差，需预测亚像素级偏移以精确定位。

这种方式天然避免了锚框带来的特征对齐问题，使得一个目标只对应特征图上一个点，重识别特征可从该点的特征向量直接提取。

2.3 重识别分支（ReID 分支）

ReID 分支为特征图的每个位置预测一个 128 维（或 256 维）的外观嵌入向量。训练时，只将热力图中目标中心位置的嵌入向量与真实身份标签进行比较，属于同一身份的嵌入应彼此接近，不同身份的嵌入应相互远离。

关键在于：检测和 ReID 分支并行作用于 DLA-34 输出的同一特征图，没有先后依赖，从而真正实现“公平”。

3. 训练策略与损失函数

FairMOT 的总损失是检测损失与 ReID 损失的加权求和。

3.1 检测损失

检测分支损失如下：

热力图损失：采用改进的 Focal Loss，对容易像素降低权重，专注于难分样本。
尺寸与偏移损失：均使用 L1 损失（Smooth L1 可选）。尺寸损失回归宽高，偏移损失修正中心位置。

总检测损失 L_detection = L_heatmap + λ_size * L_size + λ_offset * L_offset。

3.2 重识别损失

ReID 损失采用 三元组损失（Triplet Loss）与交叉熵损失的结合，既拉近类内距离又推远类间距离。特征提取后通过一个全连接层得到分类分数，在训练集中行人的 ID 作为分类类别，同时三元组损失直接在嵌入空间做度量学习。

只有热力图上中心点位置参与损失计算，背景点被忽略，避免大量负样本干扰。

3.3 联合训练平衡

检测损失的尺度通常远大于 ReID 损失，FairMOT 通过自动或手动调整损失权重，使两个损失的量级接近。启用不确定加权（Uncertainty Weighting）或多任务平衡策略也能提升训练稳定性。

4. 推理与在线跟踪

推理阶段，视频帧依次通过网络，获得检测结果和对应的外观嵌入。

4.1 目标解码

从热力图提取局部峰值（通过 3x3 最大池化），选取置信度高于阈值的点作为候选中心。结合预测的偏移和尺寸还原边界框。

4.2 在线关联

FairMOT 通常与 卡尔曼滤波 和 匈牙利算法 组合实现在线关联：

使用卡尔曼滤波预测每个已有轨迹在当前帧的位置。
计算检测框与轨迹预测框之间的交并比（IoU）以及外观嵌入之间的余弦相似度。
融合运动匹配度和外观相似度构建代价矩阵，通过匈牙利算法进行指派。
未匹配的高分检测初始化新轨迹，未匹配的轨迹短暂保留为“丢失”状态，超过时限删除。

运动与外观的融合权重可根据场景调整（如拥挤场景外观权重更高）。

5. 核心优势与适用场景

5.1 核心优势

公平架构：避免检测压制 ReID，得到高质量外观特征，显著改善遮挡后的重识别。
简单高效：单网络一次前向传播即完成检测与特征提取，推理速度快（在 GPU 上可达 30 FPS）。
以中心点对齐特征：消除了锚框导致的目标特征不一致问题，使 ID 切换大幅减少。

5.2 适用场景

行人多目标跟踪（MOT17/20 等公开基准上表现卓越）。
车辆跟踪、动物行为分析等需要同时定位和区分个体的任务。
实时安防监控、自动驾驶中的多智能体感知。

6. 实际使用与调优建议

数据准备：将标注转换为 MOT 格式，或使用如 CrowdHuman 等多样数据集联合训练提升泛化性。
预训练模型：DLA-34 主干通常在 COCO 上做检测预训练，然后再进行 MOT 多任务微调。
跟踪超参数设置：根据场景调整检测置信度阈值、外观余弦相似度阈值以及丢失轨迹存活帧数（max_age）。
常见问题：如果 ID 切换过多，提高 ReID 损失权重或增加外观特征维度；如果漏检较多，降低热力图阈值或微调尺寸损失权重。

7. 总结与下一步

FairMOT 通过将检测与 ReID 置于对等地位，结合 Anchor-Free 中心表示，提供了一个强大且易复现的多目标跟踪基线。理解其公平性设计理念，能帮助你更好地设计自己的联合检测-跟踪系统。

下一步你可以：

阅读官方 FairMOT 代码（基于 PyTorch），从头跑通训练与评估。
尝试替换骨干网络（如 ResNet 结合 FPN）并观察公平性变化。
将 FairMOT 思路扩展到其他类别目标（如车辆、足球运动员）进行迁移学习。

掌握 FairMOT 将使你深入理解现代端到端多目标跟踪的核心设计哲学。