游乐游手机版
首页/业界动态/文章详情

AI成绩单背后那位华人出题人故事

时间:2026-06-20 16:33
由加拿大滑铁卢大学助理教授陈文虎主导开发的MMLU-Pro、MMMU及MMMU-Pro等基准评测,通过扩充选项、增加推理题和过滤视觉漏洞,显著提升了模型评估的难度与区分度,成为衡量大语言模型和多模态模型能力的行业新标准。

每次前沿模型发布之际,AI领域的目光总会聚焦于那些熟悉的评测成绩单上。

MMLU-Pro、MMMU、MMMU-Pro……这些术语对普通用户略显生疏,但对模型研发团队和研究者而言,它们几乎已成为“标准化考核科目”。GPT、Claude、Gemini、Llama、Qwen、DeepSeek等模型的表现,往往需要依靠这些分数来验证。毕竟,“是骡子是马,拉出来遛遛”才是硬道理。

许多模型发布会的性能对比图,都离不开这些基准;HuggingFace上的排行榜,也建立在这些测评体系之上。可以说,如今AI领域讨论模型能力时,所使用的已经是一套由这些基准定义的共同语言。

不过,热闹背后有一个有趣的现象:几乎所有人都在关注分数,却很少有人思考这些题目出自谁之手。而MMLU-Pro、MMMU和MMMU-Pro的背后,都能看到同一个名字——陈文虎。

他是加拿大滑铁卢大学计算机科学系的助理教授,谷歌学术论文引用超过三万次。他也是“老虎实验室”(TIGERLab)的创始人。实验室全称是Text and Image Generative Research Lab,因名字中含有“虎”字,陈文虎为其取了一个辨识度很高的中文名——虎头帮。

01

旧考卷,该如何更新

陈文虎最早被行业关注,是因为MMLU-Pro。

MMLU这张“综合卷”,一度是衡量大模型知识理解与推理能力的标准考纲。它覆盖多个学科,通过分数来观察模型是否真正在进步。早期,这张试卷很有价值——模型间的差距能被清晰地拉开。

但问题很快便显现出来。

随着模型能力日益增强,MMLU逐渐变得“不够考”了。前沿模型的分数越来越高,彼此之间的差距却越来越小。

到OpenAI发布o3后,这个问题更加突出。o3在MMLU上的准确率已接近100%,其他前沿模型也陆续交出了逼近满分的成绩单。

这听起来像是好消息,但对评估而言,反而是难题。如果一张试卷大家都能考到接近满分,那它就很难再判断谁更强、强在哪里。它依然能证明模型具备某些基础能力,却不再适合衡量新的进步。

行业需要一张更难、也更不容易“糊弄过去”的新试卷。

2024年,陈文虎和团队推出了MMLU-Pro。

MMLU-Pro是对旧考卷的一次彻底改造,而不是简单地扩大题库。

它包含12032道题目,覆盖数学、物理、化学、法律、工程、心理学、健康等14个领域。相比原版MMLU,它将选项从4个扩展到10个,大幅降低了模型靠猜测蒙对的概率;同时加入了更多偏推理的问题,并清理了原题库中那些简单、有歧义或区分度不足的题目。

效果非常直接。论文数据显示,模型在MMLU-Pro上的准确率,比原版MMLU下降了16%到33%。同一模型在24种不同提示词风格下测试时,成绩波动也从原版的4%-5%,降至约2%。

这意味着,新试卷不仅更难,也更稳定。它让那些在旧试卷上看起来都表现不错的模型,重新被拉开了差距。模型到底是真会推理,还是只是更擅长应付老题目,也因此更容易被看穿。

02

好用的基准评测,是什么样?

MMLU-Pro很快被行业接纳了。

它进入了NeurIPS 2024的数据集与基准评测赛道,也被EleutherAI的语言模型评测框架lm-evaluation-harness集成。对开源模型社区来说,这意味着它不再只是一篇论文里的数据集,而是进入了常用评测工具链。很多模型发布时,开始报告MMLU-Pro分数,HuggingFace上的排行榜也将其纳入评估体系。

如果说MMLU-Pro解决的是语言模型评估中“旧考卷失灵”的问题,那么MMMU则把陈文虎和虎头帮推到了多模态评测的中心。

多模态模型的问题要更复杂一些。

语言模型答题,主要处理文字。而多模态模型需要同时处理图片、图表、示意图、地图、表格、乐谱、化学结构等多种信息。它不仅要读懂题干,还要真正看懂图像里的内容,并把视觉信息、文本信息和学科知识结合起来进行推理。

MMMU基准评测包含1.15万道多模态问题,全部来自大学考试、测验和教材,覆盖艺术与设计、商业、科学、健康与医学、人文社科、技术与工程六大领域,并细分为30个学科和183个子领域。

这些题目不是简单问模型“图里有什么”,而是要求模型像学生做专业题一样,将图像信息和学科知识结合起来。MMMU发布时,团队测试了14个开源多模态模型,以及GPT-4V、Gemini Ultra等代表性闭源模型。即便是当时最强的闭源模型,GPT-4V和Gemini Ultra也只达到56%和59%的准确率。

这个数字说明,多模态模型看似进步很快,但在真正需要专业理解和推理的问题上,还存在着巨大的提升空间。

后来,陈文虎团队又推出了MMMU-Pro,进一步堵住了模型“绕过视觉信息”的路径。它过滤掉那些只靠文本模型也能回答的问题,扩展候选项,并引入了vision-only设置,将问题嵌入图像中,要求模型同时完成视觉读取和文本理解。

简单说,就是不让模型“只看文字猜答案”。

这类工作听起来有点琐碎,但它们至关重要。因为多模态模型未来要进入医疗、教育、科研、设计、工程等场景,仅仅是能“描述图片”是远远不够的。它必须能判断、推理、解释,也必须在复杂视觉信息中找到真正有用的部分。

03

“出题人”背后

陈文虎做MMLU-Pro和MMMU,并非心血来潮,这一切都源于他一贯的研究方向。

他的研究兴趣,一直围绕着复杂信息理解、知识问答和推理。他本科毕业于华中科技大学,后在德国亚琛工业大学读硕士,最终在加州大学圣巴巴拉分校获得计算机科学博士学位。博士期间,他的研究重点就是复杂问答、表格推理、知识证据定位等方向。

这类任务都有一个共同点:答案往往不在单一的文本里。它可能藏在一张表格里,也可能需要结合一段文字和一张图片,甚至需要模型先检索信息,再整合、计算和推理。模型不能只会复述已有知识。

他参与过的HybridQA、TabFact、Program of Thoughts、MAmmoTH等项目,都与这条主线息息相关。

这也解释了为什么他对模型评估中的漏洞特别敏感。好的基准评测,不是简单地把题目越搞越难,而是要预判模型最容易在哪里“蒙对题”、“看起来会”。模型可能记住了题库,也可能靠选项猜答案,还可能用文字绕过视觉信息……好的评估,得把这些漏洞全补上。

博士毕业后,陈文虎进入谷歌研究院,随后在2024年至2025年参与了谷歌DeepMind的Gemini多模态模型和评估工作。这段经历同样重要。长期接触前沿模型研发,让他更清楚模型能力是如何增长的,也更容易看见评估中可能存在的偏差和盲区。

2024年秋季,他加入滑铁卢大学计算机科学学院任助理教授,同年入选了Canada CIFAR AI Chair。之后,他创办“老虎实验室”(虎头帮),继续围绕基础模型、多模态能力和基准评测展开研究。

虎头帮并不只做基准评测,也在做模型和系统研究。在视频方向上,UniVideo试图把视频理解、生成和编辑放进同一个框架;Vamba则瞄准长视频理解,解决一小时级别视频带来的显存、计算和训练效率问题。与Meta生成式AI团队合作的MoCha,则把重点放在说话虚拟角色生成上。

一个从来不做题的出题人是不可能出好题的。自己下场做模型,反过来也让他们更适合做评估。因为真正好的评估,往往来自于对模型能力边界的深刻理解。只有知道模型是怎么做出来的,知道它在真实任务里会碰到什么问题,才更容易设计出能测出差距、也能暴露问题的题目。

如今,陈文虎进入Meta超级智能实验室,工作继续集中在多模态预训练数据和评估,并服务于Meta的基础模型。

AI行业并不缺少被看见的人。聚光灯通常会落在创业者、明星研究员和那些大模型公司的负责人身上。但今天的AI领域,华人人才的参与早已远远超出了这些最显眼的位置。

来源:https://36kr.com/p/3859842727263113
上一篇深蓝L06 OTA升级至DEEPAL OS 3.7.0新版本 下一篇理想i6上市9个月量产15万辆创大五座纯电SUV新纪录
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
长安汽车明年一季度发布首款车载人形机器人小安
业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略,采用“1+N+X”布局,联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm,体重69kg,移动速度0 8m s,具备40个自由度,续航超2小时。预计明年一季度发布首款车载组件机器人,已在广州车展展示。

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影
业界动态 · 2026-06-29

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影

3月25日,光通信领域迎来又一个里程碑:中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司,成功实现了2 5Pb s 24芯光纤超大容量实时光传输,再次刷新了世界纪录。 这一研究成果不仅入选国际顶级光通信会议OFC(2026)并荣获“高分论文”称号,还受国际权威SCI

美国调查18万辆特斯拉Model3车门应急释放装置易找性
业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查,焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿,不意味着立即召回,但可能引发后续监管措施。

doc个人图书馆停服 创始人称无偿转让失败
业界动态 · 2026-06-29

doc个人图书馆停服 创始人称无偿转让失败

运营长达20年,累计服务8000万用户的360doc个人图书馆,最终还是迎来了谢幕时刻。2026年5月1日,这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失,而是始终未能寻得一位能够安全接管的合适人选。 创始人蔡智在告别信中坦言,近两个月来,他一直在尝试将360doc无偿转

年Q1随身WiFi实测安全靠谱高性价比机型推荐
业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月,艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证,紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后,折射出一个清晰的市场趋势:移动办公、户外出行、宿舍上网等场景的需求正在快速增长,随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿