多模态大模型评测:MMBench 与视频理解基准
多模态大模型评测入门指南
随着 GPT-4V、Gemini 等模型的出现,多模态大模型(Multimodal Large Language Models, MLLMs)已能同时理解文本、图像、视频甚至音频。如何科学、公平地评测这些模型的能力,成为业界核心话题。本教程将带你快速入门多模态大模型的评测方法,重点介绍最具代表性的图像评测基准 MMBench 和视频理解评测体系。
为什么要有一套专门的评测基准?
多模态大模型与传统单模态模型(如纯文本 LLM 或纯视觉模型)不同,评测需要同时检验 感知能力(是否看懂图/视频)与 认知推理能力(是否能结合知识进行逻辑分析)。一个好的评测基准必须具备:
- 细粒度能力划分:从物体识别到专业推理。
- 题型多样性:选择题、开放式问答、是/否判断等。
- 客观性与可复现性:避免主观评分偏差,支持自动化指标计算。
- 覆盖面广:跨领域、跨难度,防止模型仅靠预训练知识“背诵”答案。
图像多模态评测:MMBench 全解析
MMBench 是什么?
MMBench 是一个大规模、细粒度的多模态理解评测基准,由上海人工智能实验室等机构联合推出。它包含约 3000 道高质量选择题,覆盖 20 个细粒度能力维度,并支持 中英双语。所有题目都经过人工精心设计,要求模型同时理解图像内容和问题语义。
为什么要选择 MMBench?
相比早期的 VQAv2、OK-VQA 等评测集,MMBench 具有以下革新性:
-
能力划分细致入微
不再是简单的“视觉问答准确率”,而是拆解为物体识别、属性识别、空间关系、动作识别、OCR、常识推理、数值计算、跨图比较等维度。开发者可以清晰看出模型在哪个环节偏弱。 -
题目质量与难度可控
每个问题附带难度标签(简单/中等/困难),且经过多轮人工审核,避免标注偏差和歧义。 -
CircularEval 策略规避数据污染
MMBench 采用 循环评测(CircularEval),将同一问题以不同选项顺序呈现,确保模型不只依靠选项概率偏差“猜对”,提升评测稳健性。 -
开箱即用的评测工具
提供标准 API 和 VLMEvalKit 工具包,只需一键运行即可复现主流模型的成绩。
MMBench 的 20 个能力维度速览
| 维度大类 | 具体能力维度 | 示例需求 |
|---|---|---|
| 粗粒度感知 | 物体存在性、物体计数、颜色识别、场景识别 | 图中有几把椅子? |
| 细粒度感知 | 文字识别、动作识别、空间关系、属性比较 | 左边的人比右边的人高吗? |
| 实例推理 | 属性推理、功能推理、因果推理 | 为什么这个人打伞? |
| 逻辑推理 | 常识推理、数值计算、跨图比较、代码推理 | 两张图中哪张更符合消防安全规范? |
通过评测,你会发现许多模型在“物体识别”上接近满分,但在“因果推理”或“跨图比较”中急剧下降,这正是精细评测的价值所在。
如何使用 MMBench 评测你的模型?
-
准备模型输出
让你的多模态模型对 MMBench 数据集中的每个问题生成答案(选项 A/B/C/D)。 -
运行评测脚本
使用官方 MMBench GitHub 仓库 中的评估代码,或直接利用 VLMEvalKit:python run.py --data MMBench_DEV_EN --model your_model_name -
查看结果雷达图
评测完成后,会生成一个 雷达图(Spider Chart),直观展示 20 个维度上的得分,以及对数总体准确率。 -
解读模型强弱项
例如,若发现“空间关系”得分低,可能需要针对性补充 3D 空间理解数据;若“OCR 识别”薄弱,则需增强文档场景的微调。
视频理解评测:动态时空的考验
视频比图像多了一个关键维度——时间。优秀的视频理解模型需要具备 时序定位、动作识别、事件因果链推理 等能力。当前并没有一个像 MMBench 那样占据绝对主导地位的统一基准,但以下评测集构成了主流的视频理解评测体系。
核心视频评测基准一览
1. MVBench – 细粒度视频理解
MVBench 由 MMBench 团队推出,专门针对 多模态大模型的视频理解能力。它定义了 20 个时间相关任务,如:
- 动作序列:判断动作的先后顺序
- 运动方向:物体向左还是向右运动?
- 相对速度:谁跑得更快?
- 时空定位:在某秒发生什么?
- 行为反事实推理:如果不...会怎样?
MVBench 同样采用选择题形式,并提供标准评测管线,帮助开发者发现模型在处理时间动态上的盲点。
2. Video-MME – 大规模综合评测
Video-MME 是由多家机构联合构建的超大规模视频评测集,特点在于:
- 长视频覆盖:视频时长从数分钟到超过 1 小时。
- 全字幕/无字幕:同时评测模型对视觉与音频信息的利用。
- 多题型:选择题 + 开放式问题,全面检验描述、推理、主题总结等能力。
3. 经典短视频基准(MSVD-QA, MSRVTT-QA, ActivityNet-QA)
这些是传统视频问答领域常青树:
- MSVD-QA / MSRVTT-QA:基于短视频片段(<30秒),问题多围绕视频中正在发生的简单事件。
- ActivityNet-QA:长视频中的动作识别和密集事件问答,考查长时依赖。
注意:经典基准通常只给出视频字幕和问题,需要额外适配到多模态大模型的输入格式(如抽帧+指令)。
视频评测的技术挑战
-
帧采样策略影响巨大
视频很长,模型一般只能抽取关键帧(如均匀采 8~32 帧)。帧数、采样方式(均匀、聚类、场景检测)都会显著改变准确率,使得不同论文的分数难以直接对比。 -
时间定位与长程依赖
像“视频 2 分钟处的人在 5 分钟后去了哪里?”这类问题要求模型具备时间锚点和长时记忆,目前仍是所有模型的难点。 -
音频信息的利用
很多评测仅提供视觉帧,而 Video-MME 等鼓励音频与视觉融合。评测时需明确模型是否使用音频,否则结论失真。
评测实操路线图:从图像到视频
如果你是第一次评测自己的多模态模型,推荐以下步骤:
-
先跑 MMBench 图像评测
快速获得模型基础感知与推理能力画像,确认 OCR、空间关系、常识推理等维度是否达标。 -
再测 MVBench 视频评测
验证模型对时序变化的理解。若 MVBench 分数显著低于静态图能力,说明 Temporal Modeling 需要加强。 -
根据应用场景补充专项基准
- 专业场景(医疗、遥感):加入相应领域评测集。
- 长视频理解:Video-MME。
- 幻觉现象:POPE、HallusionBench 等。
- 多图/多轮对话:MMDU、Mantis-Eval 等。
-
统一使用 VLMEvalKit 等工具
为避免重复造轮子,推荐使用 OpenCompass 推出的 VLMEvalKit,它已集成 MMBench、MVBench、MME、SEED-Bench 等 70 余个多模态评测集,支持一键评测和结果对比。
关键术语速记
- MLLM:多模态大语言模型。
- MMBench:多模态理解细粒度评测基准(图像)。
- MVBench:多模态视频理解细粒度评测基准。
- CircularEval:选项循环评测策略,防止答案偏置。
- VLMEvalKit:多模态模型评测工具集。
总结
多模态评测已经从粗糙的“问答准确率”进化到 细粒度能力维度剖绘 的时代。以 MMBench 为代表的图像基准能像体检报告一样暴露模型短板,MVBench 等视频基准则将时间维度纳入考核。作为开发者,掌握这些评测工具和方法,能帮助你更有针对性地迭代模型,在多模态赛道上少走弯路。
立即开始:克隆 VLMEvalKit,运行
python run.py --data MMBench_DEV_EN --model your_model,获得第一份多模态模型能力雷达图!