游乐游手机版
首页/科技数码/文章详情

AI成绩单背后有位华人出题人

时间:2026-06-20 14:26
陈文虎及团队推出MMLU-Pro、MMMU等基准评测,改进大语言模型与多模态模型评估。MMLU-Pro将选项扩至10个并增加推理题,使模型准确率下降16%至33%。MMMU含1 15万道多模态题,顶尖模型准确率仅约60%。这些基准重新拉开模型差距,被行业广泛采用。

每当有前沿模型发布,AI社区的目光总会聚焦到那些熟悉的基准测试成绩单上。

MMLU-Pro、MMMU、MMMU-Pro……这些名称对于普通用户而言或许有些陌生,但在模型开发者和研究人员的圈子里,它们几乎已成为衡量模型能力的“标准科目”。GPT、Claude、Gemini、Llama、Qwen、DeepSeek等模型,都在这些评测基准上交出了各自的答卷。

“是骡子是马,拉出来遛遛”,模型的实际表现如何,最终还得看分数说了算。



许多模型发布会上的性能对比图表,都离不开这些基准测试;HuggingFace上的排行榜也基于它们而建立。可以说,当今AI行业在讨论模型能力时,所采用的已经是一套由这些基准测试共同定义的通用语言。

然而,有趣的是,几乎所有人都在紧盯分数,却很少有人知道这些试题的“出题人”是谁。而在MMLU-Pro、MMMU和MMMU-Pro的背后,我们可以看到同一个名字——陈文虎。



他是加拿大滑铁卢大学计算机科学系的助理教授,在谷歌学术上的论文被引用次数已超过三万次。

他也是“老虎实验室(TIGERLab)”的创始人——英文全称为Text and Image GEnerative Research Lab。由于名字中带有“虎”字,他为实验室取了一个辨识度很高的中文名:虎头帮。

01 旧考卷失灵之后

陈文虎最初被更多人关注,是因为MMLU-Pro的推出。

MMLU曾是大语言模型能力评估中最常用的基准之一。它就像一张综合性试卷,覆盖多个学科,用于衡量模型在知识理解与推理方面的表现。

在早期,这张试卷非常有效。模型之间的差距能够清晰地通过分数体现出来,整个行业也可以借此观察大语言模型是否真正取得了进步。

但问题很快就显现了出来。

随着模型能力的持续提升,MMLU逐渐变得“不够用了”。前沿模型的分数越来越高,彼此之间的差距也越来越小。



在OpenAI发布o3之后,这个问题变得更加突出。o3在MMLU上的准确率已接近100%,其他前沿模型也陆续交出了近乎满分的答卷。

这听起来像是个好消息,但对于模型评估而言,反而成了一种困扰。

如果一份试卷大家都能考到接近满分,就很难再判断谁更优秀、强在哪里。它虽然能证明模型已经具备了某些能力,但已不再适合用来衡量进一步的进步。

AI行业需要一张难度更高、也更不容易被“蒙混过关”的考卷。

2024年,陈文虎及其团队推出了MMLU-Pro。

MMLU-Pro并非简单地扩大题库,而是对这张考卷进行了全面改造。



它包含12032道题目,涵盖数学、物理、化学、法律、工程、心理学、健康等14个领域。相较于原版MMLU,选项从4个扩展到了10个,从而降低了模型依靠猜测答对的概率;同时,它增加了更多偏重推理的问题,并清理了原题库中相对简单、有歧义或区分度不足的题目。

效果立竿见影。

论文结果显示,模型在MMLU-Pro上的准确率相比原版MMLU下降了16%到33%。同一模型在24种不同提示词风格下测试时,成绩波动也从原版MMLU的4%到5%,下降到了约2%。

这意味着,这张新考卷不仅难度更高,而且稳定性也更好。

它成功地将那些在旧考卷上表现都相当出色的模型,重新拉开了差距。模型究竟是真正掌握了推理能力,还是仅仅更擅长应付旧题,也因此变得更容易被识别出来。

02 好用的基准评测

MMLU-Pro很快被行业广泛采用。

它随后进入了NeurIPS 2024数据集与基准评测赛道,并被EleutherAI的语言模型评测框架lm-evaluation-harness所集成。对于开源模型社区来说,这意味着它不再仅仅是一篇论文中的数据集,而是成为了常用评测工具链的一部分。

许多模型在发布时,开始报告MMLU-Pro的分数。HuggingFace上的一些排行榜,也将其纳入了评估体系。

如果说MMLU-Pro解决的是语言模型评估中的“旧考卷失灵”问题,那么MMMU则将陈文虎和TIGERLab推到了多模态评测领域的中心位置。

多模态模型面临的问题更为复杂。

语言模型答题,主要处理的是文字信息。而多模态模型则需要同时处理图片、图表、示意图、地图、表格、乐谱、化学结构等不同形式的信息。它不仅要理解题干,还要真正看懂图像中的内容,并将视觉信息、文本信息和学科知识结合起来进行推理。

MMMU基准评测包含1.15万道多模态问题,源自大学考试、测验和教材,覆盖艺术与设计、商业、科学、健康与医学、人文社科、技术与工程六大领域,进一步细分为30个学科和183个子领域。

这些题目并非简单地问模型“图里有什么”,而是要求模型像学生解答专业题目一样,将图像信息与学科知识进行整合。

MMMU发布时,研究团队测试了14个开源多模态模型,以及GPT-4V、Gemini Ultra等代表性闭源模型。即便是当时最强的闭源模型,GPT-4V和Gemini Ultra也只达到了56%和59%的准确率。

这一组数据表明,多模态模型虽然看似进步迅速,但在需要真正专业理解和推理的问题上,仍有巨大的提升空间。

之后,陈文虎团队又推出了MMMU-Pro,进一步封堵了模型绕过视觉信息的可能性。它过滤掉了那些仅凭文本模型也能回答的问题,扩展了候选项,并引入了vision-only设置,将问题嵌入图像中,要求模型同时完成视觉读取和文本理解。

简单来说,就是不让模型“只看文字猜答案”。

这类工作听起来有些琐碎,但它们至关重要。因为多模态模型未来要应用于医疗、教育、科研、设计、工程等场景,仅仅能够描述图片是远远不够的。它必须能够判断、推理、解释,并且能在复杂的视觉信息中找到真正有用的部分。

03 “考卷”背后的人

陈文虎后来从事MMLU-Pro和MMMU的研究,源于他一直以来坚持的研究方向。



他的研究兴趣本身就与复杂信息理解、知识问答和推理密切相关。

他本科毕业于华中科技大学,之后前往德国亚琛工业大学攻读硕士,随后在加州大学圣巴巴拉分校获得计算机科学博士学位。博士期间,他已经开始围绕复杂问答、表格推理、知识证据定位等方向展开研究。

这类任务有一个共同特点:答案往往不藏在单一的文本信息中。

它可能隐藏在一张表格里,也可能需要结合一段文字和一张图片进行理解,甚至需要模型先检索信息,再进行整合、计算和推理。模型不能仅仅是复述已有知识。

陈文虎参与过的HybridQA、TabFact、Program of Thoughts、MAmmoTH等项目,都与这一主线相关。

这也解释了他为何对模型评估中的漏洞如此敏感。

一个好的基准评测,并非简单地把题目变得越来越难,而是要预判模型最可能在哪些地方“蒙对题”或“看似会做”。

模型可能记住了题库,也可能依靠选项来猜答案,还可能用文字信息绕过视觉信息……好的评估需要把这些漏洞逐一补上。

博士毕业后,陈文虎进入了谷歌研究院,随后在2024年至2025年间参与了谷歌DeepMind的Gemini多模态模型及其评估工作。这段经历同样重要。长期接触前沿模型的研发,让他更清楚地了解模型能力是如何增长的,也更容易发现评估中可能存在的偏差和盲区。

2024年秋季,陈文虎加入滑铁卢大学计算机科学学院,担任助理教授。同年,他入选了Canada CIFAR AI Chair。之后,他创立了“老虎实验室(即虎头帮)”,继续围绕基础模型、多模态能力和基准评测开展深入研究。



虎头帮并不仅仅专注于基准评测,也在积极开展模型和系统方面的研究。

在视频方向上,UniVideo项目试图将视频理解、生成和编辑整合到同一个框架中,让模型不仅能生成画面,也能理解内容、响应指令并完成修改。Vamba项目则针对长视频理解,致力于解决长达一小时的视频所带来的显存、计算和训练效率问题。而与Meta生成式AI团队合作的MoCha项目,则将重点放在生成说话虚拟角色上,通过语音和文字描述来生成高质量的人物视频。



一个从来不做题的出题人,很难设计出真正优秀的试卷。亲自下场做模型,反过来也让他们更适合从事评估工作。

因为真正优秀的评估,往往源于对模型能力边界的深刻理解。只有知道模型是如何构建的,了解它在真实任务中会遇到哪些问题,才更容易设计出既能测出差距、也能暴露问题的题目。

如今,陈文虎已加入Meta超级智能实验室,工作重点继续集中在多模态预训练数据和评估方面,并为Meta的基础模型提供支持。

AI行业并不缺少被看见的人。聚光灯常常会落在创业者、明星研究员和大模型公司的负责人身上。新产品发布、融资消息、开源模型和团队调整,这些事件往往最能吸引外界关注,也让这些名字更容易进入公众视野。

但在今天的AI领域,华人人才的参与早已远远超出了这些最显眼的位置。

来源:https://www.163.com/dy/article/KVQ5975J05399DAP.html
上一篇地核反弹波首次证实 回旋震推动日本东移6毫米触发板块滑动 下一篇香港车博会成中国汽车从拼电池到拼AI的智能化出海压力测试场
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。