多模态大模型评测:MMBench 与视频理解基准

FreeGuideOnline 最新 2026-06-22

多模态大模型评测入门指南

随着 GPT-4V、Gemini 等模型的出现,多模态大模型(Multimodal Large Language Models, MLLMs)已能同时理解文本、图像、视频甚至音频。如何科学、公平地评测这些模型的能力,成为业界核心话题。本教程将带你快速入门多模态大模型的评测方法,重点介绍最具代表性的图像评测基准 MMBench 和视频理解评测体系。


为什么要有一套专门的评测基准?

多模态大模型与传统单模态模型(如纯文本 LLM 或纯视觉模型)不同,评测需要同时检验 感知能力(是否看懂图/视频)与 认知推理能力(是否能结合知识进行逻辑分析)。一个好的评测基准必须具备:

  • 细粒度能力划分:从物体识别到专业推理。
  • 题型多样性:选择题、开放式问答、是/否判断等。
  • 客观性与可复现性:避免主观评分偏差,支持自动化指标计算。
  • 覆盖面广:跨领域、跨难度,防止模型仅靠预训练知识“背诵”答案。

图像多模态评测:MMBench 全解析

MMBench 是什么?

MMBench 是一个大规模、细粒度的多模态理解评测基准,由上海人工智能实验室等机构联合推出。它包含约 3000 道高质量选择题,覆盖 20 个细粒度能力维度,并支持 中英双语。所有题目都经过人工精心设计,要求模型同时理解图像内容和问题语义。

为什么要选择 MMBench?

相比早期的 VQAv2、OK-VQA 等评测集,MMBench 具有以下革新性:

  1. 能力划分细致入微
    不再是简单的“视觉问答准确率”,而是拆解为物体识别、属性识别、空间关系、动作识别、OCR、常识推理、数值计算、跨图比较等维度。开发者可以清晰看出模型在哪个环节偏弱。

  2. 题目质量与难度可控
    每个问题附带难度标签(简单/中等/困难),且经过多轮人工审核,避免标注偏差和歧义。

  3. CircularEval 策略规避数据污染
    MMBench 采用 循环评测(CircularEval),将同一问题以不同选项顺序呈现,确保模型不只依靠选项概率偏差“猜对”,提升评测稳健性。

  4. 开箱即用的评测工具
    提供标准 API 和 VLMEvalKit 工具包,只需一键运行即可复现主流模型的成绩。

MMBench 的 20 个能力维度速览

维度大类 具体能力维度 示例需求
粗粒度感知 物体存在性、物体计数、颜色识别、场景识别 图中有几把椅子?
细粒度感知 文字识别、动作识别、空间关系、属性比较 左边的人比右边的人高吗?
实例推理 属性推理、功能推理、因果推理 为什么这个人打伞?
逻辑推理 常识推理、数值计算、跨图比较、代码推理 两张图中哪张更符合消防安全规范?

通过评测,你会发现许多模型在“物体识别”上接近满分,但在“因果推理”或“跨图比较”中急剧下降,这正是精细评测的价值所在。

如何使用 MMBench 评测你的模型?

  1. 准备模型输出
    让你的多模态模型对 MMBench 数据集中的每个问题生成答案(选项 A/B/C/D)。

  2. 运行评测脚本
    使用官方 MMBench GitHub 仓库 中的评估代码,或直接利用 VLMEvalKit:

    python run.py --data MMBench_DEV_EN --model your_model_name
    
  3. 查看结果雷达图
    评测完成后,会生成一个 雷达图(Spider Chart),直观展示 20 个维度上的得分,以及对数总体准确率。

  4. 解读模型强弱项
    例如,若发现“空间关系”得分低,可能需要针对性补充 3D 空间理解数据;若“OCR 识别”薄弱,则需增强文档场景的微调。


视频理解评测:动态时空的考验

视频比图像多了一个关键维度——时间。优秀的视频理解模型需要具备 时序定位、动作识别、事件因果链推理 等能力。当前并没有一个像 MMBench 那样占据绝对主导地位的统一基准,但以下评测集构成了主流的视频理解评测体系。

核心视频评测基准一览

1. MVBench – 细粒度视频理解

MVBench 由 MMBench 团队推出,专门针对 多模态大模型的视频理解能力。它定义了 20 个时间相关任务,如:

  • 动作序列:判断动作的先后顺序
  • 运动方向:物体向左还是向右运动?
  • 相对速度:谁跑得更快?
  • 时空定位:在某秒发生什么?
  • 行为反事实推理:如果不...会怎样?

MVBench 同样采用选择题形式,并提供标准评测管线,帮助开发者发现模型在处理时间动态上的盲点。

2. Video-MME – 大规模综合评测

Video-MME 是由多家机构联合构建的超大规模视频评测集,特点在于:

  • 长视频覆盖:视频时长从数分钟到超过 1 小时。
  • 全字幕/无字幕:同时评测模型对视觉与音频信息的利用。
  • 多题型:选择题 + 开放式问题,全面检验描述、推理、主题总结等能力。

3. 经典短视频基准(MSVD-QA, MSRVTT-QA, ActivityNet-QA)

这些是传统视频问答领域常青树:

  • MSVD-QA / MSRVTT-QA:基于短视频片段(<30秒),问题多围绕视频中正在发生的简单事件。
  • ActivityNet-QA:长视频中的动作识别和密集事件问答,考查长时依赖。

注意:经典基准通常只给出视频字幕和问题,需要额外适配到多模态大模型的输入格式(如抽帧+指令)。

视频评测的技术挑战

  1. 帧采样策略影响巨大
    视频很长,模型一般只能抽取关键帧(如均匀采 8~32 帧)。帧数、采样方式(均匀、聚类、场景检测)都会显著改变准确率,使得不同论文的分数难以直接对比。

  2. 时间定位与长程依赖
    像“视频 2 分钟处的人在 5 分钟后去了哪里?”这类问题要求模型具备时间锚点和长时记忆,目前仍是所有模型的难点。

  3. 音频信息的利用
    很多评测仅提供视觉帧,而 Video-MME 等鼓励音频与视觉融合。评测时需明确模型是否使用音频,否则结论失真。


评测实操路线图:从图像到视频

如果你是第一次评测自己的多模态模型,推荐以下步骤:

  1. 先跑 MMBench 图像评测
    快速获得模型基础感知与推理能力画像,确认 OCR、空间关系、常识推理等维度是否达标。

  2. 再测 MVBench 视频评测
    验证模型对时序变化的理解。若 MVBench 分数显著低于静态图能力,说明 Temporal Modeling 需要加强。

  3. 根据应用场景补充专项基准

    • 专业场景(医疗、遥感):加入相应领域评测集。
    • 长视频理解:Video-MME。
    • 幻觉现象:POPE、HallusionBench 等。
    • 多图/多轮对话:MMDU、Mantis-Eval 等。
  4. 统一使用 VLMEvalKit 等工具
    为避免重复造轮子,推荐使用 OpenCompass 推出的 VLMEvalKit,它已集成 MMBench、MVBench、MME、SEED-Bench 等 70 余个多模态评测集,支持一键评测和结果对比。


关键术语速记

  • MLLM:多模态大语言模型。
  • MMBench:多模态理解细粒度评测基准(图像)。
  • MVBench:多模态视频理解细粒度评测基准。
  • CircularEval:选项循环评测策略,防止答案偏置。
  • VLMEvalKit:多模态模型评测工具集。

总结

多模态评测已经从粗糙的“问答准确率”进化到 细粒度能力维度剖绘 的时代。以 MMBench 为代表的图像基准能像体检报告一样暴露模型短板,MVBench 等视频基准则将时间维度纳入考核。作为开发者,掌握这些评测工具和方法,能帮助你更有针对性地迭代模型,在多模态赛道上少走弯路。

立即开始:克隆 VLMEvalKit,运行 python run.py --data MMBench_DEV_EN --model your_model,获得第一份多模态模型能力雷达图!