多模态大模型评测：MMBench 与视频理解基准

FreeGuideOnline 最新 2026-06-22

多模态大模型评测入门指南

随着 GPT-4V、Gemini 等模型的出现，多模态大模型（Multimodal Large Language Models, MLLMs）已能同时理解文本、图像、视频甚至音频。如何科学、公平地评测这些模型的能力，成为业界核心话题。本教程将带你快速入门多模态大模型的评测方法，重点介绍最具代表性的图像评测基准 MMBench 和视频理解评测体系。

为什么要有一套专门的评测基准？

多模态大模型与传统单模态模型（如纯文本 LLM 或纯视觉模型）不同，评测需要同时检验 感知能力（是否看懂图/视频）与 认知推理能力（是否能结合知识进行逻辑分析）。一个好的评测基准必须具备：

细粒度能力划分：从物体识别到专业推理。
题型多样性：选择题、开放式问答、是/否判断等。
客观性与可复现性：避免主观评分偏差，支持自动化指标计算。
覆盖面广：跨领域、跨难度，防止模型仅靠预训练知识“背诵”答案。

图像多模态评测：MMBench 全解析

MMBench 是什么？

MMBench 是一个大规模、细粒度的多模态理解评测基准，由上海人工智能实验室等机构联合推出。它包含约 3000 道高质量选择题，覆盖 20 个细粒度能力维度，并支持 中英双语。所有题目都经过人工精心设计，要求模型同时理解图像内容和问题语义。

为什么要选择 MMBench？

相比早期的 VQAv2、OK-VQA 等评测集，MMBench 具有以下革新性：

能力划分细致入微
不再是简单的“视觉问答准确率”，而是拆解为物体识别、属性识别、空间关系、动作识别、OCR、常识推理、数值计算、跨图比较等维度。开发者可以清晰看出模型在哪个环节偏弱。
题目质量与难度可控
每个问题附带难度标签（简单/中等/困难），且经过多轮人工审核，避免标注偏差和歧义。
CircularEval 策略规避数据污染
MMBench 采用 循环评测（CircularEval），将同一问题以不同选项顺序呈现，确保模型不只依靠选项概率偏差“猜对”，提升评测稳健性。
开箱即用的评测工具
提供标准 API 和 VLMEvalKit 工具包，只需一键运行即可复现主流模型的成绩。

MMBench 的 20 个能力维度速览

维度大类	具体能力维度	示例需求
粗粒度感知	物体存在性、物体计数、颜色识别、场景识别	图中有几把椅子？
细粒度感知	文字识别、动作识别、空间关系、属性比较	左边的人比右边的人高吗？
实例推理	属性推理、功能推理、因果推理	为什么这个人打伞？
逻辑推理	常识推理、数值计算、跨图比较、代码推理	两张图中哪张更符合消防安全规范？

通过评测，你会发现许多模型在“物体识别”上接近满分，但在“因果推理”或“跨图比较”中急剧下降，这正是精细评测的价值所在。

如何使用 MMBench 评测你的模型？

准备模型输出
让你的多模态模型对 MMBench 数据集中的每个问题生成答案（选项 A/B/C/D）。
运行评测脚本
使用官方 MMBench GitHub 仓库中的评估代码，或直接利用 VLMEvalKit：
```
python run.py --data MMBench_DEV_EN --model your_model_name
```
查看结果雷达图
评测完成后，会生成一个 雷达图（Spider Chart），直观展示 20 个维度上的得分，以及对数总体准确率。
解读模型强弱项
例如，若发现“空间关系”得分低，可能需要针对性补充 3D 空间理解数据；若“OCR 识别”薄弱，则需增强文档场景的微调。

视频理解评测：动态时空的考验

视频比图像多了一个关键维度——时间。优秀的视频理解模型需要具备 时序定位、动作识别、事件因果链推理 等能力。当前并没有一个像 MMBench 那样占据绝对主导地位的统一基准，但以下评测集构成了主流的视频理解评测体系。

核心视频评测基准一览

1. MVBench – 细粒度视频理解

MVBench 由 MMBench 团队推出，专门针对 多模态大模型的视频理解能力。它定义了 20 个时间相关任务，如：

动作序列：判断动作的先后顺序
运动方向：物体向左还是向右运动？
相对速度：谁跑得更快？
时空定位：在某秒发生什么？
行为反事实推理：如果不...会怎样？

MVBench 同样采用选择题形式，并提供标准评测管线，帮助开发者发现模型在处理时间动态上的盲点。

2. Video-MME – 大规模综合评测

Video-MME 是由多家机构联合构建的超大规模视频评测集，特点在于：

长视频覆盖：视频时长从数分钟到超过 1 小时。
全字幕/无字幕：同时评测模型对视觉与音频信息的利用。
多题型：选择题 + 开放式问题，全面检验描述、推理、主题总结等能力。

3. 经典短视频基准（MSVD-QA, MSRVTT-QA, ActivityNet-QA）

这些是传统视频问答领域常青树：

MSVD-QA / MSRVTT-QA：基于短视频片段（<30秒），问题多围绕视频中正在发生的简单事件。
ActivityNet-QA：长视频中的动作识别和密集事件问答，考查长时依赖。

注意：经典基准通常只给出视频字幕和问题，需要额外适配到多模态大模型的输入格式（如抽帧+指令）。

视频评测的技术挑战

帧采样策略影响巨大
视频很长，模型一般只能抽取关键帧（如均匀采 8~32 帧）。帧数、采样方式（均匀、聚类、场景检测）都会显著改变准确率，使得不同论文的分数难以直接对比。
时间定位与长程依赖
像“视频 2 分钟处的人在 5 分钟后去了哪里？”这类问题要求模型具备时间锚点和长时记忆，目前仍是所有模型的难点。
音频信息的利用
很多评测仅提供视觉帧，而 Video-MME 等鼓励音频与视觉融合。评测时需明确模型是否使用音频，否则结论失真。

评测实操路线图：从图像到视频

如果你是第一次评测自己的多模态模型，推荐以下步骤：

先跑 MMBench 图像评测
快速获得模型基础感知与推理能力画像，确认 OCR、空间关系、常识推理等维度是否达标。
再测 MVBench 视频评测
验证模型对时序变化的理解。若 MVBench 分数显著低于静态图能力，说明 Temporal Modeling 需要加强。
根据应用场景补充专项基准
- 专业场景（医疗、遥感）：加入相应领域评测集。
- 长视频理解：Video-MME。
- 幻觉现象：POPE、HallusionBench 等。
- 多图/多轮对话：MMDU、Mantis-Eval 等。
统一使用 VLMEvalKit 等工具
为避免重复造轮子，推荐使用 OpenCompass 推出的 VLMEvalKit，它已集成 MMBench、MVBench、MME、SEED-Bench 等 70 余个多模态评测集，支持一键评测和结果对比。

关键术语速记

MLLM：多模态大语言模型。
MMBench：多模态理解细粒度评测基准（图像）。
MVBench：多模态视频理解细粒度评测基准。
CircularEval：选项循环评测策略，防止答案偏置。
VLMEvalKit：多模态模型评测工具集。

总结

多模态评测已经从粗糙的“问答准确率”进化到 细粒度能力维度剖绘 的时代。以 MMBench 为代表的图像基准能像体检报告一样暴露模型短板，MVBench 等视频基准则将时间维度纳入考核。作为开发者，掌握这些评测工具和方法，能帮助你更有针对性地迭代模型，在多模态赛道上少走弯路。

立即开始：克隆 VLMEvalKit，运行 python run.py --data MMBench_DEV_EN --model your_model，获得第一份多模态模型能力雷达图！