厦门大学研究显示AI模型在自动出题测试中得分低于40%

近期,一项关于人工智能抽象推理能力评估的研究在学术界引发热议。这项由厦门大学多媒体可信感知与高效计算教育部重点实验室与人工智能研究院联合主导的工作,已于2026年5月以预印本形式公开,论文编号为arXiv:2605.17278。
我们评价一个人是否“聪明”,不仅看其知识储备,更看重其在新场景中举一反三、触类旁通的能力。这种能力,在认知科学中被称为“抽象推理”。然而,如何准确、公正地评测人工智能是否真正具备这种高阶思维能力,一直是该领域公认的核心挑战。
挑战何在?现有的评测体系往往陷入两难境地。一方面,像ARC测试这类由专家手工精心设计的小规模高质量题库,虽然题目精良,但成本高昂、难以扩展;另一方面,如GSM8K或BIG-bench这类从互联网海量采集的评测集,规模庞大,却无法规避模型在训练阶段已“记忆”过答案的风险——这究竟测的是推理能力,还是数据记忆?
厦门大学的研究团队旨在破解这一困局。他们开发了一套名为A?RBench的全自动评测流水线,其核心理念颇具创新性:让AI自己担任“出题官”。该系统能够自动生成全新题目、大规模扩展题库、验证题目质量,并组织其他AI模型进行“考试”,最后还能深入剖析模型的“解题思路”。最关键的是,他们通过严密的数学证明,确保了每道题目都有且仅有一个标准答案,从根源上杜绝了题目本身的歧义性。
使用这套系统对当前14款主流大语言模型进行“统一测试”后,结果发人深省:表现最佳的模型,在代表性题目上的得分也仅为39.8%。相比之下,参与测试的人类志愿者平均得分高达68.5%。这一显著差距清晰地揭示,在真正的抽象推理能力层面,当前AI的水平可能远低于公众的普遍认知。
一、为何传统评测难以公平衡量AI的推理能力
公平地评估AI的推理能力,远比评估人类复杂。例如,当AI答对一道数学题时,我们难以判断:它是真正理解了背后的数学原理,还是仅仅因为在海量训练数据中见过相同或高度相似的题目,从而“回忆”出了答案?这种现象被称为“数据污染”或“数据泄露”,它严重削弱了评测结果的可信度。
为解决此问题,研究界通常有两条路径。第一条是“小而精”的专家路线,依赖人力手工创建全新的、确保未被泄露的题目。著名的ARC测试是此路线的典范,其包含约1000道高质量的视觉逻辑谜题,但扩展性差,制作成本极高。第二条是“大而全”的自动化路线,从互联网自动收集海量题目,如包含8500道数学应用题的GSM8K。这种方法规模可观,但问题在于互联网本身是大型模型的训练数据源,题目很可能已被“预习”,评测结果更多反映的是“数据熟悉度”而非“逻辑推理深度”。
厦门大学团队洞察到,这并非一个不可调和的矛盾,而是一个可以通过工程方法突破的瓶颈。他们的策略清晰而有力:利用AI自动生成题目,同时运用数学方法为题目质量“保驾护航”,从而一举实现“大规模”与“高质量”的兼得。
二、揭秘“自动出题系统”的工作原理
A?RBench系统犹如一条精密的自动化产线,由四个紧密衔接的核心模块构成。
首先是“种子生成”。此模块的目标是创造全新的题目类型。系统指派一个AI模型(称为“作者模型”)扮演逻辑谜题设计师。设计师会从ARC测试集中随机抽取20条规则作为风格参考(仅借鉴风格,不复制内容),然后完成两项核心任务:第一,用自然语言描述一条全新的、可双向推导的规则(例如,“将序列的前后两半进行交叉穿插”);第二,将这条规则编写成可执行的Python代码,同时实现正向变换函数f和逆向还原函数g。
此处有一个至关重要的质量把关步骤:循环一致性检验。代码编写完成后,系统会自动运行检验流程——任意给定一个输入x,用f处理得到y,再用g处理y,检查是否能完美还原为初始的x。只有当g(f(x)) ≡ x 恒成立时,这道题目才算通过初步审核。这不仅是简单的代码测试,其背后有坚实的数学理论支撑。研究团队在论文中证明了(定理3.1):通过该检验的规则,在数学上必然是一个“双射”函数,即输入与输出之间存在一一对应的映射关系。这从根本上保证了对于任意给定的输出,都存在唯一确定的输入,确保了题目答案的绝对唯一性。
种子题生成后,还需经过另一位“评审模型”的审核,以过滤掉过于简单或无意义的变换规则(例如“原样输出”这种无效规则)。
接下来是“任务扩展”。既然核心规则已经过严格验证,便可高效复用。此模块的核心思想是利用已验证的规则,通过更换输入数据来低成本、大规模地扩充题库。一个“扩展模型”会为每道种子题生成最多9个变体,并分三个阶段进行策略性设计:V1-V3为标准情况,检验对规则的基本掌握;V4-V6为边缘情况(如空列表、极短序列),测试模型的鲁棒性;V7-V9则为复杂的对抗性案例,专门设计容易迷惑模型的输入进行压力测试。这种策略的成本效益极高:生成一道种子题的平均成本约为0.19美元,而扩展一个变体仅需约0.005美元,成本降低近38倍。最终构建包含1054道题的数据集,总花费仅约16.86美元。相比之下,人工标注类似ARC质量的题目,每道成本估计在25-50美元之间。
第三个环节是“评测”。题目以“模式识别”的形式呈现:向模型展示若干组输入-输出示例对,要求其推断背后的隐藏规则,并对新的输入给出正确答案。除了常规的准确率评估,系统还增设了一项“符号替换”测试:对于纯结构性的逻辑题,将其中的常见符号(如数字、字母)替换为陌生符号。如果模型的表现大幅下降,则表明它之前可能依赖的是对熟悉符号的直觉记忆,而非对抽象规则的本质理解。
最后一个环节是“深度分析”,这也是A?RBench最具特色的部分。传统评测通常只给出“对/错”的二元判断,而A?RBench则试图深入模型的“思维黑箱”。系统会分析模型给出的“思维链”推理过程,并依据一套分类标准对每次推理进行质量评级。
对于答对的情况,分为三档:最高档是“真正泛化”,模型找到了最简洁、最通用的核心规则;中间档是“次优规则”,虽然也能解释所有示例,但规则过于繁琐或特殊化;最低档是“表面拟合”,答案虽然蒙对了,但推理路径是错误的或过度特化的。
对于答错的情况,则归类为“抽象失败”(根本未找到有效规则)、“推理执行错误”(规则找对但计算出错)或“格式崩溃”等类型。
这套分析框架的理论根基是“奥卡姆剃刀”原则:在所有能解释观测数据的假设中,最简单的那个最可能是正确的。当然,在计算上精确找到“最简单描述”是NP难问题,因此研究团队训练了一个AI分析员来近似模拟这一判断。为验证其可靠性,他们在180条样本上进行了人工比对,结果显示AI分析员与人工标注的一致性达到了84%以上,Cohen's κ系数约为0.75,属于良好的一致性水平。
三、题目示例与类型覆盖
最终生成的题库包含1054道题目(主评测集703道,另加351道符号替换版本),在“维度”和“领域”两个维度上保持了良好的分布均衡。
从维度看,题目分为三类:一维序列(如数字或字母列表)、二维网格(类似表格的二维数组)和三维体素(三维数组,可类比魔方内部的排列)。三类题目的数量大致相当,各在229至237道之间。
从领域看,题目分为“符号规则”和“语义规则”两类。符号规则只关心元素的结构排列顺序,与符号本身的含义无关。例如,“将序列中第i个元素移动到第 (i×k) mod n 个位置”,这条规则无论对数字、字母还是任意符号都适用。语义规则则需要理解符号的现实意义,比如“将字母替换为其在字母表中序数对应的化学元素符号”(A→氢H,B→氦He)。两类题目的数量也基本持平。
以下举例能更直观地感受题目风格:
- 一维符号题:规则是“将序列从中间切开,然后交叉穿插两半”。给定示例:["a","b","c","d"] → ["c","a","d","b"];["a","b","c","d","e"] → ["d","a","e","b","c"]。问:["p","y","t","h","o","n","3"] 会变成什么?
- 二维符号题:规则是“在每个不重叠的2×2方块内,交换右上角和左下角元素,保持左上角和右下角不变”。
- 一维语义题:即上述字母到化学元素的映射规则。
- 三维语义题:结合了三维空间旋转与古老的Atbash密码(A↔Z, B↔Y, C↔X...)规则。
四、评测结果深度解读:AI推理能力的短板何在
让14款主流模型完成这场“统考”后,研究团队得出了三个核心发现,每一处都揭示了当前AI在抽象推理能力上的不同瓶颈。
发现一:整体表现欠佳,核心瓶颈在于“抽象归纳”而非“数值计算”。 表现最佳的Gemini3-Pro总体准确率为40.9%,在108道代表性种子题上得分39.8%。而人类参与者的平均得分是68.5%。细分来看,五位计算机科学博士平均得分高达68.52%,五位计算机专业本科生为48.33%,五位非计算机专业本科生为25.19%。即便是非专业本科生,其表现也与顶尖AI大致相当,而博士组则遥遥领先。更重要的是,对错误类型的分析显示,跨所有模型,最主要的失败原因都是“抽象失败”,即模型根本未能从示例中归纳出正确规则,而非在找到规则后计算出错。这明确指向AI的短板在于“发现规律”这一初始步骤。
符号替换测试进一步佐证了这一点。GPT-5在原始符号题上的准确率为41.3%,换成陌生符号后暴跌至23.6%,落差高达17.7个百分点。这表明,GPT-5此前相当一部分的正确率,可能源于对熟悉符号的直觉反应或模式匹配,而非对抽象规则的理解。相比之下,Gemini3-Pro的符号依赖差距仅为4.6%,Claude-Sonnet-4.5更是只有1.7%,显示出不同模型在抽象能力上的显著差异。
发现二:出人意料的“维度困境”。 直觉上,题目难度应随维度增加而递增:1D < 2D < 3D。但实验结果却呈现出一个“V”字形:几乎所有模型在二维题上的表现都差于三维题,形成了1D > 3D > 2D的格局。
原因何在?分析发现,这其实是“出题AI”自身能力局限的间接反映。通过分析生成题目代码的抽象语法树复杂度,研究者发现:当出题模型(如O4-mini)生成二维题时,其代码中的条件判断平均嵌套深度达到2.33层,逻辑相当复杂;而生成三维题时,嵌套深度却降至1.40层。原因在于,处理三维空间结构本身已经消耗了模型大量的“认知资源”,迫使它不得不简化规则内部的逻辑复杂度,以确保代码能正确运行。这就好比一个人同时处理多项复杂任务,每项任务的质量都会受到影响。因此,出题模型生成的三维题,其内在逻辑反而更简单,解题AI也就更容易找到规律。这个发现暴露了当前AI在生成高维度复杂任务时存在的“能力天花板”。
发现三:“规律性悖论”——输入越规律,题目反而越简单。 在V4(边缘情况变体)题目中,输入数据的“信息复杂度”(用压缩比衡量,值越高规律性越强)达到了所有变体中最高的4.286,而模型的解题准确率也同步飙升至54.8%,几乎是种子题(约20%)的三倍。同时,模型答错时的“失败熵”(衡量错误答案的分散程度)在V4时降至最低的1.532比特,远低于其他变体(约2.8-2.9比特)。
这背后的逻辑其实很直接:当输入数据具有高度规律性(比如一个严格周期性填充的矩阵),这种规律本身就像额外的提示,极大地缩小了可能规则的搜索空间,使得正确答案更容易被锁定。反之,那些看似复杂、像随机噪声的对抗性案例(V7-V9压缩比仅0.56-0.77),由于无法提供有效线索,反而让推理变得更困难。这个发现对题库设计至关重要:一道题的难度,关键不在于数据表面看起来多“乱”,而在于规则本身是否清晰、唯一,以及输入数据是否提供了辅助推理的规律性线索。
五、系统的延伸应用:微调训练实验探索
研究团队还进行了一项小规模的探索性实验,测试A?RBench是否不仅能用于评测,也能作为提升模型能力的训练数据。他们使用高效的LoRA技术对Qwen3-8B模型进行了微调,使用了673道题目(按规则族划分数据集以防止数据泄露),训练了2个轮次。
结果令人鼓舞,尽管提升并不均衡。在MMLU-Pro通用知识测试上,准确率从16.35%提升至34.13%,几乎翻倍。在BBH推理测试集上,整体推理能力从9.15%提升到13.24%。部分子任务的提升尤为显著:形式谬误识别从2.8%跃升至59.2%,导航推理从10.8%升至59.6%,布尔表达式计算从64.0%提升至82.8%。更引人注目的是格式遵从能力:JSON格式对齐从29.04%达到100%,MMLU的JSON格式对齐从13.54%提升至99.95%。
这些结果表明,A?RBench的数据能有效帮助模型学习“答案收敛”(减少无效输出,给出明确答案)、“输出对齐”(严格遵守格式要求)以及“离散规则辨别”(在有限选项中做出准确判断)等关键能力。当然,团队也指出,这只是一个初步探索,改进效果并不均匀,其作为高质量训练数据的潜力还需更大规模、更系统的研究来验证。
六、方法的局限性与未来展望
研究团队也坦诚地指出了当前方法的局限性。首先,出题AI的能力上限决定了题库复杂度的上限。如果出题模型本身不擅长某类规则,生成的题目在该领域就会受限,这一点在二维与三维题的对比中已显露无遗。未来,随着更强大的基础模型出现,题库的多样性、复杂性和挑战性自然会水涨船高。
其次,目前框架仅支持“双射规则”(一一对应的可逆规则),这是为了满足循环一致性检验的数学要求。但现实世界中存在大量有意义的“多对一”规则(例如“将所有偶数映射为0,奇数映射为1”),这类不可逆的规则目前无法被纳入。将其扩展进来,是明确列出的未来研究方向之一。
最后,当前对推理质量的判断,依赖于一个AI分析员来近似实现“奥卡姆剃刀”原则,这本质上是一种启发式方法,并非完全客观。未来可以考虑采用“机制可解释性”或“概念激活向量”等技术,直接分析模型内部状态,从而获得更直接、更可靠的推理质量度量指标。
总而言之,A?RBench这项研究,实质上是打造了一把能够自动生产、自动检验、自动评分的“AI抽象推理能力标尺”,而且这把尺子有严谨的数学原理作为精度保障。用这把尺子一量,发现当前最先进的AI,其得分也不过是人类平均水平的一半左右。更关键的是,失分的主因并非“算错了”,而是“根本没想明白规律是什么”。这对整个AI领域而言,无疑是一剂清醒剂:在实现类人抽象推理的道路上,我们仍有很长的路要走。这项研究的意义,或许不仅在于揭示了差距,更在于提供了一种可以持续、自动地追踪这一差距演进的工具。随着AI模型不断迭代,这把“尺子”也能自动生成新的考题,让我们始终拥有一个有效的检验基准。
Q&A
Q1:A?RBench是如何保证每道题有且只有一个正确答案的?
A:核心机制在于“循环一致性检验”。系统要求每道题的规则必须同时实现正向函数f和反向函数g,并自动验证对于所有输入x,都有g(f(x)) = x。研究团队从数学上证明,通过此检验的规则必然是一一对应的“双射”函数,这从根本上确保了答案的唯一性。该结论在论文中表述为“定理3.1”。
Q2:AI在A?RBench上得分低,是因为题目太难还是有其他原因?
A:主要原因并非题目超纲过难,而在于AI在“从示例中归纳规则”这一核心步骤上就失败了。错误分析显示,“抽象失败”是所有模型最主要的错误类型。此外,符号替换测试表明,部分模型严重依赖对熟悉符号的直觉,换成陌生符号后成绩大幅下滑,这说明其部分“正确”答案源于记忆联想,而非抽象理解。
Q3:为什么三维题反而比二维题更容易被AI解答?
A:这并非因为三维推理本身更简单,而是“出题AI”能力局限导致的间接结果。出题模型在处理三维结构时,需要分配大量“认知资源”来构建空间关系,因此被迫简化了规则内部的逻辑复杂度,导致生成的三维题其内在逻辑反而比二维题更浅显。代码复杂度分析证实了这一点:例如,O4-mini模型生成的二维题,其条件判断平均嵌套深度为2.33层,而三维题仅为1.40层。
相关攻略
字节跳动推出AI模型Lance,统一图像与视频的理解、生成与编辑六大能力。该模型采用多任务协同训练架构,利用模态感知旋转位置编码等技术解决视觉标记混淆问题。实验显示其多任务学习能促进跨能力正向迁移,在多项基准测试中表现优异,验证了统一模型对提升泛化能力的可行性。
厦门大学研究团队开发了自动出题系统A?RBench,通过数学证明确保题目答案唯一,以评测AI抽象推理能力。测试显示,当前最强AI模型得分不足40%,远低于人类平均的68 5%。分析表明,AI主要短板在于难以从示例中发现规律,而非计算错误。该系统能自动生成并验证题目,为持续评估AI推理能力提供了新工具。
我们正处在一个历史性的技术转折点:从“无人驾驶”迈向“通用物理AI”。这不仅是单一技术的迭代,更是整个研发范式的根本性变革。在刚刚开幕的北京车展上,轻舟智航以一场主题为《物理AI,轻舟已至》的战略发布会,清晰地描绘了这条通往未来的技术路径。 北京车展轻舟智航发布会现场 发布会上,基于“世界模型+强化
如何利用写代码的AI模型提升文档处理效率,助力办公自动化 在追求效率的现代办公环境中,文档处理往往是拖慢整体进度的关键环节。繁琐、重复且易出错的手工操作,不仅消耗大量时间,更直接影响企业的运营效能。那么,有没有一种方法能从根本上改变这一局面?答案是肯定的。将目光投向人工智能,特别是那些能够“写代码”
通过Duck ai平台可便捷体验Mixtral-8x7B模型,无需本地部署。用户需在界面手动切换至该模型,其具备多语言理解与代码生成等原生能力。为优化交互,建议结构化提问并明确指令。若遇响应延迟,可拆分长请求或重置会话以改善体验。
热门专题
热门推荐
NFT的艺术革命:数字所有权如何改变创作与收藏? 说起NFT,或者说非同质化代币,它早已不是科技圈里的小众概念。其核心在于,利用区块链技术,为原本可以无限复制的数字艺术品,打上了独一无二、可验证的“身份证”。这看似简单的技术应用,却像一块投入湖面的巨石,激起的涟漪正全方位地重塑艺术世界的游戏规则——
Instant Job Cover Letters with AI是什么 在求职过程中,一封出色的求职信往往是获得面试机会的关键。然而,如何将个人经历与职位要求精准匹配,撰写出既专业又具吸引力的内容,对许多人而言是一项挑战。今天介绍的这款工具——Instant Job Cover Letters w
CopywriterGPT io是什么 在内容营销至关重要的当下,高效创作专业营销文案是众多企业与团队的核心需求。CopywriterGPT io正是针对这一痛点推出的AI智能文案生成平台。它运用前沿人工智能技术,旨在为营销人员、创业者及中小企业主提供个性化、高质量的文案创作解决方案,帮助用户快速塑
aiRight是什么 在内容创作领域,效率与质量往往难以平衡。是否存在一款工具能够同时解决这两大难题?今天我们要深入探讨的aiRight,或许正是您寻找的解决方案。它由业界知名的科技公司研发,核心使命清晰:赋能用户高效生成与管理优质内容,尤其适合时间紧迫的内容创作者、市场营销团队以及企业级用户。 简
Ace That Application是什么 在竞争激烈的求职市场中,一份精准匹配、专业出色的简历和求职信是获得面试机会的关键。Ace That Application正是为解决这一核心需求而设计的智能平台。由Creati ai开发,它致力于通过人工智能技术,帮助求职者高效创建高度个性化的申请材料





