AI乘法计算盲区揭秘:德克萨斯大学与新加坡国立大学研究新发现
一项由德克萨斯大学奥斯汀分校与新加坡国立大学合作完成的研究,计划于2026年在计算语言学顶级会议ACL Findings上发表。其预印本论文(编号arXiv:2604.18203v1)已于2026年4月20日公开,为理解多模态大语言模型在基础算术上的能力边界,提供了相当扎实的实证依据。

一、那个让AI频频出错的“小把戏”
不妨先心算一道题:47乘以36,等于多少?
对人类而言,这不过是道基础算术题,列个竖式就能轻松得出1692。但如果我们换种方式出题呢?不直接给出数字“47×36”,而是展示一张包含这个算式的图片,或者用语音念出来。题目的难度会改变吗?
对人类来说,答案显然是否定的。无论题目以何种形式呈现,背后的计算逻辑不变,答案自然一致。然而,对于当前那些能“看”图、“听”音、“读”文的多模态大语言模型来说,情况却复杂得多。
研究者观察到一个奇特现象:同一道乘法题,以纯数字文本形式输入时,AI或许能答对;可一旦将题目渲染成图片,或转为音频,AI的表现就开始波动。更有趣的是,即便同是文字输入,将“47×36”写成“四十七乘以三十六”,模型的准确率也可能发生变化。
这背后的根源,究竟是AI“看不懂”,还是“算不来”?为了厘清这个问题,研究团队设计了一套精巧的实验,试图揭开谜底。
二、做一把精密的尺子:算术负担指数C
在深入探究之前,首先得解决一个基础问题:如何量化“一道乘法题有多难”?
直觉上,数字位数越多,题目越难。但光看位数并不准确。例如,1000×200就比89×67要简单,尽管前者的数字看起来更大。关键在于,有多少个“真正需要计算”的非零数字——因为零乘任何数都等于零,计算时可以跳过。
为此,研究团队定义了一个名为“算术负担”的指标,记为C。其计算方法很直观:将两个乘数的总位数,乘以这两个数中非零位数的总数。以47×36为例,总位数是4,非零位数也是4,因此C=4×4=16。再看1000×200,总位数是7,但非零位只有“1”和“2”两个,所以C=7×2=14,难度反而更低。
这个指标的设计思路,好比评估一道菜的复杂程度:不仅要看食材总数,更要看有多少食材需要精细处理。如果二十种食材里,有十五种都只需简单处理,那么实际难度并不高。后续验证表明,指标C在预测AI计算准确率方面表现出色,其决定系数R²普遍超过0.5。与那些考虑进位传播、中间步骤数等更复杂的指标相比,C的表现差距并不大,堪称一把简洁而有效的“尺子”。
三、搭建“考场”:跨模态乘法基准测试
有了衡量难度的尺子,接下来便是搭建公平的“考场”。研究团队构建了一个包含一万道配对乘法题的测试集,每道题都以多种形式呈现:纯数字文本、数字单词文本(如“forty-seven times thirty-six”)、将文本渲染成的图片版本,以及音频版本。
题目的设计颇具系统性。研究者预设了几种数字模板来控制操作数的结构,从最简单的单个随机数字,到两位随机数(“VV”型)、三位随机数(“VVV”型),再到带尾部零的“V0”、“V00”、“VV0”型,以及非相邻非零位的“V0V”型。这种设计能在不改变题目外在形式的前提下,系统性地调节算术难度,从而产生丰富多样的进位模式。
参与测试的模型阵容堪称豪华,涵盖了谷歌的Gemini 2.5 Flash、阿里云的Qwen3-VL(30亿和2350亿参数两个版本)、OpenAI的GPT-4o和GPT-5.4,以及xAI的Grok 4.20。对于需要深入分析模型内部机制(如访问词元损失值)的实验,则重点使用了Qwen3-VL的两个版本。
四、“看得见”和“算得出”,竟然是两回事
测试结果揭示了一个关键发现:感知与计算在AI内部是分离的。
通俗地讲,研究者设计了两类任务:一类是“识别题”——直接问AI,图片或音频里的数字是什么?另一类是“计算题”——把识别出的这两个数字乘起来,答案是多少?
如果AI在图片版乘法题上答错,原因无非两种:要么没看清数字(感知失败),要么看清了但算错了(计算失败)。实验结果清晰地指向了后者。在感知检查中,所有模型在所有模态下的识别准确率均超过99%。这意味着,AI完全能准确“读取”各种格式的题目。然而,在随后的计算环节,准确率随着算术负担C的增加而急剧下滑。当C超过100时,许多模型的正确率已趋近于零。
这个发现意义明确:AI的乘法失败,根源不在于“看不清”,而在于“算不准”。这对于担心“图片干扰AI识别”的担忧是个好消息,但对于依赖AI进行可靠计算的应用场景而言,则揭示了一个更深层的能力瓶颈。
五、谁比谁更能“抗”?各模型的表现大比较
既然有了统一的难度标尺C,就可以横向比较不同模型的抗压能力了。研究团队为每个模型在每种输入形式下拟合了准确率预测曲线,并提取了关键参数。
其中最直观的是“50%门槛”——即当C值达到多少时,模型的预测准确率会降至50%。门槛越高,表明模型越能应对难题。
Gemini 2.5 Flash、Qwen3-VL-30B和GPT-4o表现接近,其50%门槛大约在C=50到54之间。这意味着,对这些模型而言,当算术负担超过50,其答对概率就已降至一半。Qwen3-VL-235B则明显更强,门槛在74到75之间,展现了参数规模带来的优势。GPT-5.4和Grok 4.20总体表现更佳,但它们对输入格式更为敏感——在纯数字文本或数字图片上表现较好,一旦换成字母拼写的图片,门槛便明显下降。
值得注意的是,不同模态之间的差异主要体现在起点(截距)上,而非下降的斜率。也就是说,图片和音频模态往往从一个更低的基准准确率开始,但随着C值增大,其准确率下降的速度与文本模态大致相同。数字图片的表现通常与数字文本接近,而字母拼写的图片则是各模型稳定的弱点。音频模态在本次评估条件下,并未表现出统一的惩罚效应。
这里不得不提一个极端案例:谷歌的Gemini 3.1 Pro。在C不超过100的原始测试范围内,该模型的表现近乎完美。但代价是其推理速度极慢——处理每种模态需耗时超过一小时,而其他模型仅需几分钟;其输出长度也是其他模型的十倍以上。为此,研究团队将测试范围扩展至C=400,才终于观察到Gemini 3.1 Pro的准确率开始下降,转折点大约在C=360附近,对应的例题是诸如“一千六百多万乘以五十六亿”这样的超大数字运算。
六、AI更喜欢哪种算法?“口味测试”揭秘
在弄清楚AI在哪里会出错之后,研究者进一步追问:当AI进行乘法运算时,它内部更倾向于采用哪种计算策略?
人类会根据题目特点选择不同策略。例如,计算49×51时,很多人会想到“近似于50×50再调整”,这被称为“取整补偿法”(RC)。计算47×60时,则会自然地转化为“47×6再添个零”,即“分配分解法”(DD)。而对于87×96这类没有明显规律的题目,则只能老老实实进行“列式乘法”(OT),逐位相乘。
研究团队设计了一个巧妙的“口味测试”:他们为每种策略编写了一段简短的开场白提示(如“列式法:从个位数字开始……”),将其接在题目之后,然后测量AI模型“延续”每种提示的意愿强度。在技术上,这通过计算模型预测该段续写的交叉熵损失值来体现,损失值越低,表明该策略越符合模型的“自然倾向”。
结果相当一致:无论是30亿参数还是2350亿参数的模型,无论是文字题还是图片题,AI都对分配分解法(DD)表现出最低的损失值,即最强的偏好。在30亿版本中,DD策略在文字模态下的损失值增量(delta loss)为-0.5060(低于中性基准,表示受偏爱),在图片模态下为+0.9156。在2350亿版本中,虽然所有策略的损失值都高于中性基准,但DD仍然是损失最低的一个(+1.4734,而OT高达+2.3409)。列式乘法(OT)则始终是最不受“青睐”的选项。
为了确认这种偏好是源于实质的算法倾向,而非仅仅因为某些措辞更常见,研究者替换了测试用的模板措辞。结果发现,虽然替换后测量噪声增大,但AI的整体偏好方向基本保持不变。这说明,AI对DD的偏好并非简单的文字匹配,而是有其内在的计算逻辑基础。
七、能不能“强行换口味”?LoRA适配器的失败启示
既然AI有内在的策略偏好,一个自然的想法是:能否通过训练,强制它使用某种特定策略,从而提升准确率?
研究团队尝试了一种轻量级的训练方法——LoRA适配器(低秩适应)。你可以将其理解为在原有大模型上附加一个薄薄的“行为补丁”,而无需重新训练整个庞然大物。他们分别训练了三个补丁:一个鼓励使用取整补偿法(RC),一个鼓励分配分解法(DD),一个鼓励列式乘法(OT),同时还训练了一个仅模仿推理格式但不指定具体策略的对照补丁。每个补丁使用约一千道精选例题进行训练。
实验结果令人意外,却也富有启发性。在使用这些补丁测试144道题(每种策略)时,三个策略补丁在总共432次比较中,引发了114次答案正确性的“翻转”。然而,其中仅有1次是从错误变为正确,另外113次都是从正确变为错误。类似地,在2350亿参数版本中,432次比较里有121次翻转,其中仅4次变好,117次变差。就连那个只模仿格式、不指定策略的对照补丁,也主要导致了准确率下降。
这说明了什么?AI模型原始的“内部路由机制”——即它根据题目特征自发选择计算策略的能力——实际上比任何人为强加的单一固定策略都更为优化和灵活。外部补丁强行将AI推向特定套路,反而干扰甚至破坏了其原有的动态调度能力。就像一个经验丰富的大厨,本可根据食材状态灵活运用煎、炒、烹、炸,若强行规定每道菜都必须用同一种技法,结果往往适得其反。
对错误类型的后续分析显示,最常见的错误是“漏掉了某个中间乘积”,而非“数量级错误”或“进位遗漏”。这进一步表明,强制使用单一策略导致AI在执行算法步骤时出现了遗漏,而非产生了其他类型的计算错误。
八、不同策略在“参数空间”里住得有多远?
为了从更底层的几何视角理解这三种算法策略是否对应了AI内部不同的计算机制,研究团队进行了一项分析。
每个训练好的LoRA补丁都会产生一组参数更新,可以将其视作一个指向特定方向的向量。如果两种策略对应的补丁向量方向高度一致(余弦相似度接近1),说明它们调用了相似的底层神经机制;如果方向几乎垂直(余弦相似度接近0),则意味着它们激活了完全不同的计算子空间。
结果显示,三种策略补丁的向量方向彼此几乎正交——余弦相似度均接近零。在30亿参数版本中,OT与DD策略的相似度仅为0.0726,DD与RC策略为0.1192。在2350亿版本中,这个数字更小,OT与DD之间仅有0.0412,DD与RC之间为0.0342。
为排除随机性影响,研究者用不同的随机种子重新训练了相同策略的补丁。结果发现,“同一策略两次训练”所得向量之间的相似度(30亿版本约为0.2553),显著高于“不同策略之间”的相似度(30亿版本平均约为0.1055)。这证实了每种策略确实在模型的参数空间中占据了相对独立的位置,三种人类算法策略在AI内部有着各自不同的“神经实现”。
九、当AI遇到“陷阱题”:策略偏好有多脆弱?
研究团队还设计了一批专门的“对抗性陷阱”题目,用以测试AI的策略偏好在面对具有误导性的题目时,是否会失效或被带偏。
例如,“反取整陷阱”题会让题目表面看起来非常适合取整补偿法(如操作数接近整十整百),但实际上暗藏玄机,使得取整法用起来反而更麻烦。“缺项分解陷阱”则测试AI在使用分配分解法时,是否会漏掉某个必要的中间乘积项。
实验结果表明,陷阱题确实能重新分配AI的策略偏好。在面对反取整陷阱时,30亿参数版本的模型对RC策略的偏好分数,从正常测试集的26.5%上升到了34.5%——这意味着陷阱题反而让模型更强烈地认为应该使用取整法,恰好落入了设计者的圈套。2350亿参数版本的模型也有类似变化,但幅度小得多(从12.4%升至15.6%),展现出更强的鲁棒性。
这个发现意味着,规模更大的模型不仅算术能力更强,在面对误导性线索时,其内部判断机制也更为稳定,不易被“带偏”。
总结与启示
说到底,这项研究揭示了一个有趣且深刻的现实:当前多模态大语言模型的“聪明”,在某些方面既专一又脆弱。它们能近乎完美地“感知”以任何格式呈现的数学题目,但真正的瓶颈在于核心的计算能力本身。随着数字位数和非零位数的增加,AI的乘法准确率会以相当可预测的方式急剧下滑,而且这种下滑趋势在图片、音频、文字等各种输入模态下惊人地一致——多模态的外壳之下,包裹的是同一套计算能力的极限。
研究还表明,AI内部更偏爱分配分解法,这种偏好既有其计算逻辑的基础,也受到题目格式和操作数结构的影响。而当我们试图通过轻量级训练强行改变这种偏好时,反而会扰乱其原本运转良好的内部路由机制。这或许给未来的应用提了个醒:对于需要高可靠算术能力的场景,与其费力训练AI掌握某种固定的“心算”算法,不如为其提供外部的计算工具(如计算器API),将“读题”与“算题”的任务清晰地拆分开来,或许是更务实、更高效的路径。
对技术细节感兴趣的读者,可通过论文编号arXiv:2604.18203查阅完整原文,获取所有实验数据与方法细节。
Q&A
Q1:算术负担指标C是怎么计算的?为什么用这个指标?
A:算术负担C的计算方法是:两个乘数的总位数,乘以这两个数中非零位数的总数。例如,47×36,总位数是4,非零位数也是4,故C=16。选用这个指标,是因为它能简洁地反映乘法实际需要的计算量——零乘任何数都得零,可跳过,因此非零位数才是核心难度来源。研究发现,C对AI计算准确率的预测能力相当强,R²通常超过0.5,与那些更复杂、考虑进位步骤的指标相比,预测效果差距不大。
Q2:多模态AI在乘法题上的失误,到底是看错了数字还是算错了?
A:主要是算错了,而非看错了。研究团队专门设计了感知检查实验,单独测试AI识别图片或音频中数字的能力,结果所有模型在所有模态下的识别准确率均超过99%。但在随后的乘法计算中,准确率随算术负担C增大而大幅下降。这说明,多模态AI的失败根源在于其计算能力本身的局限,而非感知环节。
Q3:为什么给AI强制训练某种乘法策略反而让准确率下降?
A:根本原因在于,AI模型原有的“内部路由机制”——即其根据题目特征动态选择计算策略的能力——比任何单一的固定策略都更为优化和灵活。通过LoRA适配器进行的轻量级训练,强行将AI推向某种固定套路,反而干扰了其原有的、适应性更强的调度机制。实验中,三种策略补丁在432次比较中造成了114次正确性翻转,其中113次是从对变错。就连仅模仿推理格式的对照补丁,也主要导致准确率下降。这表明,问题出在外部干预破坏了模型自然的决策流程,而非策略本身有优劣之分。
相关攻略
一项由德克萨斯大学奥斯汀分校与新加坡国立大学合作完成的研究,计划于2026年在计算语言学顶级会议ACL Findings上发表。其预印本论文(编号arXiv:2604 18203v1)已于2026年4月20日公开,为理解多模态大语言模型在基础算术上的能力边界,提供了相当扎实的实证依据。 一、那个让A
这项研究由中国科学院自动化研究所、中国科学院大学、新加坡国立大学与腾讯AI实验室联合完成,论文于2026年4月发表在预印本平台arXiv上,编号为arXiv:2604 14142。 教孩子学数学,通常有两种思路。一种是直接刷题,做对奖励,做错扣分,反复练习直到分数提高。另一种是先帮他建立扎实的数学思
这项由新加坡国立大学与牛津大学联合主导的研究项目,于2026年4月以技术报告形式发布,并提交至预印本平台arXiv,编号为arXiv:2604 07429。对该研究感兴趣的读者可通过此编号查阅完整的论文内容。 评估一个人的真实智力,仅凭静态的试卷分数是远远不够的,关键在于考察其在动态、充满不确定性的
当电影特效和虚拟现实技术日益融入我们的生活,一项来自新加坡国立大学与百度的联合研究,正在悄然重塑视频内容创作的边界。这项于2026年4月发表在arXiv预印本平台(编号:arXiv:2604 01043v1)的研究,提出了名为“ONE-SHOT”的创新框架。它的核心目标,是让计算机具备“导演”般的洞
这项由中国科学院自动化研究所基础模型研究中心联合新加坡国立大学、腾讯等机构开展的研究,发表于2026年,论文编号为arXiv:2604 02288v1。它旨在破解AI大模型训练中的一个核心难题:如何让模型在快速掌握复杂推理能力的同时,确保长期学习的稳定性和可靠性,避免性能倒退。 将AI训练类比为教学
热门专题
热门推荐
领克首款GT概念跑车亮相北京车展,由中欧团队联合打造。新车采用经典GT比例与低趴宽体设计,配备液态金属蓝涂装与2+2座舱,设有高性能模式按键可激活空气动力学套件。车辆采用后驱布局与AI智能运动控制系统,百公里加速约2秒,设计融合瑞典极简美学并参考全球用户反馈。
英伟达推出12GB显存版RTX5070移动GPU,与8GB版同步上市。两者均基于Blackwell架构,核心规格相同,仅显存容量不同。此举旨在缓解GDDR7芯片供应压力,为OEM提供灵活配置,加速笔记本产品布局,更大显存可更好满足游戏与AI应用需求。
微星将于5月15日推出两款26 5英寸雾面WOLED显示器MAG276QRY28和276QRDY54,售价分别为2499元和6299元。均采用第四代WOLED面板,具备QHD分辨率、VESADisplayHDRTrueBlack500认证、1500尼特峰值亮度及99 5%DCI-P3色域覆盖。276QRY28刷新率为280Hz,高阶款276QRDY54支持4
中芯国际2026年第一季度营收176 17亿元,同比增长8 1%;净利润13 61亿元,同比增长0 4%。公司预计第二季度收入环比增长14%至16%,毛利率指引上调至20%至22%。这反映出公司在行业复苏中展现出财务韧性,并通过运营优化增强了短期增长势头。
手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能,其背后都离不开人工智能(AI)技术的驱动。通常,AI模型的训练逻辑是:向模型展示大量“低质图像”与“优质图像”的配对数据,让它学习如何将前者转化为后者。然而,天津大学计算机视觉团队近期发表的一项研究(arXiv:2604 08172)揭





