AI成绩单背后有位华人出题人

时间：2026-06-20 14:26

陈文虎及团队推出MMLU-Pro、MMMU等基准评测，改进大语言模型与多模态模型评估。MMLU-Pro将选项扩至10个并增加推理题，使模型准确率下降16%至33%。MMMU含1 15万道多模态题，顶尖模型准确率仅约60%。这些基准重新拉开模型差距，被行业广泛采用。

每当有前沿模型发布，AI社区的目光总会聚焦到那些熟悉的基准测试成绩单上。

MMLU-Pro、MMMU、MMMU-Pro……这些名称对于普通用户而言或许有些陌生，但在模型开发者和研究人员的圈子里，它们几乎已成为衡量模型能力的“标准科目”。GPT、Claude、Gemini、Llama、Qwen、DeepSeek等模型，都在这些评测基准上交出了各自的答卷。

“是骡子是马，拉出来遛遛”，模型的实际表现如何，最终还得看分数说了算。

许多模型发布会上的性能对比图表，都离不开这些基准测试；HuggingFace上的排行榜也基于它们而建立。可以说，当今AI行业在讨论模型能力时，所采用的已经是一套由这些基准测试共同定义的通用语言。

然而，有趣的是，几乎所有人都在紧盯分数，却很少有人知道这些试题的“出题人”是谁。而在MMLU-Pro、MMMU和MMMU-Pro的背后，我们可以看到同一个名字——陈文虎。

他是加拿大滑铁卢大学计算机科学系的助理教授，在谷歌学术上的论文被引用次数已超过三万次。

他也是“老虎实验室（TIGERLab）”的创始人——英文全称为Text and Image GEnerative Research Lab。由于名字中带有“虎”字，他为实验室取了一个辨识度很高的中文名：虎头帮。

01 旧考卷失灵之后

陈文虎最初被更多人关注，是因为MMLU-Pro的推出。

MMLU曾是大语言模型能力评估中最常用的基准之一。它就像一张综合性试卷，覆盖多个学科，用于衡量模型在知识理解与推理方面的表现。

在早期，这张试卷非常有效。模型之间的差距能够清晰地通过分数体现出来，整个行业也可以借此观察大语言模型是否真正取得了进步。

但问题很快就显现了出来。

随着模型能力的持续提升，MMLU逐渐变得“不够用了”。前沿模型的分数越来越高，彼此之间的差距也越来越小。

在OpenAI发布o3之后，这个问题变得更加突出。o3在MMLU上的准确率已接近100%，其他前沿模型也陆续交出了近乎满分的答卷。

这听起来像是个好消息，但对于模型评估而言，反而成了一种困扰。

如果一份试卷大家都能考到接近满分，就很难再判断谁更优秀、强在哪里。它虽然能证明模型已经具备了某些能力，但已不再适合用来衡量进一步的进步。

AI行业需要一张难度更高、也更不容易被“蒙混过关”的考卷。

2024年，陈文虎及其团队推出了MMLU-Pro。

MMLU-Pro并非简单地扩大题库，而是对这张考卷进行了全面改造。

它包含12032道题目，涵盖数学、物理、化学、法律、工程、心理学、健康等14个领域。相较于原版MMLU，选项从4个扩展到了10个，从而降低了模型依靠猜测答对的概率；同时，它增加了更多偏重推理的问题，并清理了原题库中相对简单、有歧义或区分度不足的题目。

效果立竿见影。

论文结果显示，模型在MMLU-Pro上的准确率相比原版MMLU下降了16%到33%。同一模型在24种不同提示词风格下测试时，成绩波动也从原版MMLU的4%到5%，下降到了约2%。

这意味着，这张新考卷不仅难度更高，而且稳定性也更好。

它成功地将那些在旧考卷上表现都相当出色的模型，重新拉开了差距。模型究竟是真正掌握了推理能力，还是仅仅更擅长应付旧题，也因此变得更容易被识别出来。

02 好用的基准评测

MMLU-Pro很快被行业广泛采用。

它随后进入了NeurIPS 2024数据集与基准评测赛道，并被EleutherAI的语言模型评测框架lm-evaluation-harness所集成。对于开源模型社区来说，这意味着它不再仅仅是一篇论文中的数据集，而是成为了常用评测工具链的一部分。

许多模型在发布时，开始报告MMLU-Pro的分数。HuggingFace上的一些排行榜，也将其纳入了评估体系。

如果说MMLU-Pro解决的是语言模型评估中的“旧考卷失灵”问题，那么MMMU则将陈文虎和TIGERLab推到了多模态评测领域的中心位置。

多模态模型面临的问题更为复杂。

语言模型答题，主要处理的是文字信息。而多模态模型则需要同时处理图片、图表、示意图、地图、表格、乐谱、化学结构等不同形式的信息。它不仅要理解题干，还要真正看懂图像中的内容，并将视觉信息、文本信息和学科知识结合起来进行推理。

MMMU基准评测包含1.15万道多模态问题，源自大学考试、测验和教材，覆盖艺术与设计、商业、科学、健康与医学、人文社科、技术与工程六大领域，进一步细分为30个学科和183个子领域。

这些题目并非简单地问模型“图里有什么”，而是要求模型像学生解答专业题目一样，将图像信息与学科知识进行整合。

MMMU发布时，研究团队测试了14个开源多模态模型，以及GPT-4V、Gemini Ultra等代表性闭源模型。即便是当时最强的闭源模型，GPT-4V和Gemini Ultra也只达到了56%和59%的准确率。

这一组数据表明，多模态模型虽然看似进步迅速，但在需要真正专业理解和推理的问题上，仍有巨大的提升空间。

之后，陈文虎团队又推出了MMMU-Pro，进一步封堵了模型绕过视觉信息的可能性。它过滤掉了那些仅凭文本模型也能回答的问题，扩展了候选项，并引入了vision-only设置，将问题嵌入图像中，要求模型同时完成视觉读取和文本理解。

简单来说，就是不让模型“只看文字猜答案”。

这类工作听起来有些琐碎，但它们至关重要。因为多模态模型未来要应用于医疗、教育、科研、设计、工程等场景，仅仅能够描述图片是远远不够的。它必须能够判断、推理、解释，并且能在复杂的视觉信息中找到真正有用的部分。

03 “考卷”背后的人

陈文虎后来从事MMLU-Pro和MMMU的研究，源于他一直以来坚持的研究方向。

他的研究兴趣本身就与复杂信息理解、知识问答和推理密切相关。

他本科毕业于华中科技大学，之后前往德国亚琛工业大学攻读硕士，随后在加州大学圣巴巴拉分校获得计算机科学博士学位。博士期间，他已经开始围绕复杂问答、表格推理、知识证据定位等方向展开研究。

这类任务有一个共同特点：答案往往不藏在单一的文本信息中。

它可能隐藏在一张表格里，也可能需要结合一段文字和一张图片进行理解，甚至需要模型先检索信息，再进行整合、计算和推理。模型不能仅仅是复述已有知识。

陈文虎参与过的HybridQA、TabFact、Program of Thoughts、MAmmoTH等项目，都与这一主线相关。

这也解释了他为何对模型评估中的漏洞如此敏感。

一个好的基准评测，并非简单地把题目变得越来越难，而是要预判模型最可能在哪些地方“蒙对题”或“看似会做”。

模型可能记住了题库，也可能依靠选项来猜答案，还可能用文字信息绕过视觉信息……好的评估需要把这些漏洞逐一补上。

博士毕业后，陈文虎进入了谷歌研究院，随后在2024年至2025年间参与了谷歌DeepMind的Gemini多模态模型及其评估工作。这段经历同样重要。长期接触前沿模型的研发，让他更清楚地了解模型能力是如何增长的，也更容易发现评估中可能存在的偏差和盲区。

2024年秋季，陈文虎加入滑铁卢大学计算机科学学院，担任助理教授。同年，他入选了Canada CIFAR AI Chair。之后，他创立了“老虎实验室（即虎头帮）”，继续围绕基础模型、多模态能力和基准评测开展深入研究。

虎头帮并不仅仅专注于基准评测，也在积极开展模型和系统方面的研究。

在视频方向上，UniVideo项目试图将视频理解、生成和编辑整合到同一个框架中，让模型不仅能生成画面，也能理解内容、响应指令并完成修改。Vamba项目则针对长视频理解，致力于解决长达一小时的视频所带来的显存、计算和训练效率问题。而与Meta生成式AI团队合作的MoCha项目，则将重点放在生成说话虚拟角色上，通过语音和文字描述来生成高质量的人物视频。