斯坦福大学揭秘AI数手指失败原因大模型为何无法准确计数
这项由斯坦福大学电气工程系主导的研究,于2026年5月以预印本形式发表于arXiv(编号arXiv:2605.02028),揭示了一个看似简单却直指核心的问题。研究团队设计了一个出人意料的测试——让AI模型数数——结果暴露了当前大型语言模型在执行规则方面存在根本性局限。

一个引人深思的现象是,那些能够撰写复杂代码、解答数学难题、分析长篇文档的AI助手,却可能在数数这项基础任务上彻底失败。这种失败并非渐进式的偏差,而是在某个临界点后突然崩溃,报出“500”或“1000”这样的整数,仿佛一个孩子数完手指后便开始胡乱猜测。这背后隐藏的,是关于AI能力本质的深刻疑问。
斯坦福的研究者观察到,AI在各种考试中表现日益出色,但这种“出色”究竟源于对规则的真实理解,还是仅仅模仿了规则的表象?为了探究真相,他们设计了一个极简测试:给AI一串重复的字母,让它数出个数。任务不涉及任何复杂知识或语义理解,只需重复执行“加一”操作。测试结果令人深思:所有参与测试的一百多个模型版本,都在某个数字上彻底崩溃,而这个崩溃点远低于模型官方宣称的文字处理能力上限。
为什么数数能揭露AI的真面目
要理解这项研究的价值,首先需要审视常规的AI测试是如何进行的。
通常,我们通过出题来评估AI:解数学题、写代码、回答科学问题。这些测试固然重要,但存在一个根本缺陷:答对题目,未必意味着AI真正“理解”了原理。它可能只是在训练数据中见过类似题目,记住了答案,或者凭借语言模式拼凑出一个看似合理的回答。这就好比判断一个学生是否掌握了物理,不能只看他是否背熟了例题答案。
研究者将这类测试称为“依赖知识的测试”。其问题在于,当AI接触过海量相关内容后,它完全可以“表演”出理解的样子,真假难辨。
与此相对,他们提出了“纯机械测试”的概念。这类测试规则极其简单,输入是人工合成的,不含任何需要记忆的知识或语义暗示,输出必须是精确数字。更重要的是,测试用例可以无限生成,杜绝了AI靠记忆答案蒙混过关的可能。数数,正是这种纯机械测试的完美范例。
数数的规则只有一条:“每遇到一个字母,计数加一”。输入是“a, a, a, a, a, ...”这样的无意义重复序列。AI需要做的,仅仅是从头到尾执行这条规则并报告结果。如果它能做到,说明它确实在执行规则;如果不能,那么它在其他复杂任务中表现出的“规则执行能力”,就值得重新审视了。
测试设计:一把步步升高的“梯子”
研究者将这套测试命名为“稳定计数能力”测试。其设计如同逐级升高的梯子:AI若能稳定数清某一长度范围的序列,就挑战更长的序列,直至其无法稳定给出正确答案。
具体而言,测试从约32个字母的序列开始。在这一档,研究者会随机生成16个长度略有波动(在32上下20%范围内)的序列让AI计数。如果AI在16次尝试中,每次答案与正确答案的偏差都在5%以内,则视为在该长度“稳定通过”,随后序列长度翻倍,继续测试。若AI在某个长度失败,则在其最后通过与最早失败的长度间精确搜索,找出其“数数极限”,即“计数容量”。
这个设计的巧妙之处在于,由于每次测试的序列长度随机波动,AI无法靠猜测“大概范围”来侥幸过关。即便崩溃后它随口报出“500”,也会因为正确答案可能是83或117而频繁出错,无法稳定通过任何一档。
为了全面评估,研究团队测试了超过126个不同的模型版本,涵盖OpenAI的GPT系列、Anthropic的Claude系列、Google的Gemini系列以及多个开源模型。整个测试的API花费约200美元,堪称一次高性价比的“能力体检”。
所有AI都有数数上限,且出乎意料地低
测试结果迫使人们重新思考对AI能力的认知。
所有被测试的模型,无一能无限地数下去。每个模型都有一个明确的“崩溃点”,超过此点,准确计数便不复存在。更令人意外的是,这个崩溃点远低于模型官方宣称的“上下文窗口”——即它们声称能处理的最大文字量。
举例来说,有些模型的上下文窗口号称能处理数十万甚至百万字符,但其计数容量可能只有几百甚至不足一百。这意味着,AI即便能“读到”序列中的每一个字母,也无法可靠地对它们逐一计数。处理长文本与在长文本中精确执行规则,是两件完全不同的事。
不同模型的表现差异显著。总体而言,较新的模型通常能数到更大的数字,但即便是最新、最强大的前沿模型,也都在远低于其宣传上下文长度的地方宣告失败。这就像一个自称能记住整本书内容的人,却无法数清第一章里有多少个逗号。
崩溃模式:非渐进偏离,而是突然坠崖
AI崩溃时的具体表现更耐人寻味。
如果AI使用的是某种近似估算方法,那么随着序列变长,其误差应逐渐增大,如同目测估算人群数量,人数越多偏差越大,但方向大致正确。然而事实恰恰相反:在崩溃点之前,AI的表现近乎完美;一旦超越临界点,其输出便如坠崖般跳转到完全离谱的数字。
研究者观察到,当AI失去计数能力后,并非随机猜测,而是倾向于输出一些“圆整”的数字,如500、1000、2000。这些数字在现实语境中常被用来指代“大量”。也就是说,当AI不知正确答案时,它会退回到“常识性的大数字猜测”模式,而非继续尝试遵循规则。
将所有模型的数据叠加分析后,这种“崩溃前完美、崩溃后乱猜”的模式具有普遍性。而且,崩溃后的错误答案在分布图上呈现出明显的水平条纹——大量答案聚集在500附近,另一批聚集在1000附近——这种分布不像随机误差,倒像是AI在查阅一个“常见大数字”的内部列表。
在所有测试中,有5%的尝试(9797次中有501次)甚至未能输出有效数字,而是返回了空白、重复输入、代码格式或莫名其妙的“推理过程”。这表明,一旦计数状态崩溃,连“回答一个数字”这类基本指令遵循能力也会受到波及。
符号与格式:微调即变的表现
研究者还进行了一项启发性的变体测试:改变序列中的字母或分隔符号。
原始测试使用小写字母“a”加逗号分隔。当尝试将字母更换为其他字母、数字、希腊字母、中文字符,或将逗号换为空格、竖线、分号时,许多模型的计数容量发生了显著变化,时好时坏,且这种变化与输入token数量(AI处理文本的基本单位)的变化并不完全吻合。
这一发现意味着什么?它说明AI的计数能力并非建立在抽象、通用的“计数规则”之上,而是与具体的符号、输入格式紧密绑定。不同的字母和标点会触发不同的内部处理路径,每条路径各有其容量上限。好比一个人数苹果能数到100,数梨子却只能到50——若真正理解“数数”的本质,换任何对象都应一样;但若只是靠记忆硬背“数苹果的方法”,换个对象就会彻底混乱。
更多“思考时间”于事无补
一个合理的推测是:也许AI需要更多的“思考过程”来辅助计数?毕竟,许多模型支持“思维链”方式,即在最终答案前进行一步步推导,类似于打草稿。
为验证此猜想,研究者比较了普通模型与“推理增强版”模型(即消耗更多计算资源、生成更多中间步骤的版本)的计数表现。结果出人意料:推理增强版消耗的token数量常是普通版的数倍乃至数十倍,但计数容量的提升微乎其微,有些模型甚至表现更差。
从总体数据中,研究者总结出一条经验规律:稳定计数时,大约每消耗两个token才能可靠地计一个数。并且,消耗多少token与能数多少之间存在一个天花板,超越此限,再多的计算资源也无济于事。这表明,计数失败的根本原因不在于“想得不够多”,而在于某种更基础的内部状态已然耗尽——这种状态无法通过额外计算来补充。
研究者用一个贴切的比喻来描述:这就像数手指。人类有十根手指,数到10没问题,但数到10之后,无论多努力,也无法用手指继续数下去,除非借助其他工具。AI的处境类似:它有一定数量的“内部状态槽”,用尽即尽,多“思考”一会儿也无法补充。
资源共享:数数与复杂任务争夺同种有限资源
为了验证计数所用的内部资源是否与其他认知任务共享,研究者设计了一组“双任务干扰实验”。
实验方法是让AI同时完成两件事:一边数序列中某个字母的数量,一边回答一道来自真实基准测试的题目(可能是推理、编程、数学或知识题)。随后,比较这种“双任务”下的计数误差与单独计数时的误差。
结果非常清晰:当AI需要同时处理推理或编程任务时,其计数准确度大幅下降,误差远高于单独计数。相比之下,如果只是让AI阅读一段同等长度的无意义随机代码,对计数的干扰则小得多。更有趣的是,若让AI同时数两个不同字母的数量(一个更复杂的计数任务),其对计数准确度的干扰反而小于复杂推理任务。
这说明,干扰源于任务本身的复杂程度,而非仅仅是任务长度。推理和编程这类需要大量内部状态维护的任务,与数数竞争同一种有限资源,从而导致计数表现下降。换言之,AI的“工作记忆”是有限的,且为多种任务所共享。
窥探内部:AI“大脑”中发生了什么
以上均是从外部行为观察。研究者还进一步“打开”了一个开源模型,直接查看其内部运作。
他们选用的是权重公开的Gemma 3 27B-it模型。该模型行为与其他模型一致:数到27个字母前完全正确,之后突然崩溃,开始重复输出60、100等整数。
研究者首先进行了“残差流投影”分析。通俗讲,就是在AI处理数数任务时,于每一层神经网络输出处捕捉“快照”,试图从中读出当前的计数状态。结果发现,在模型成功计数阶段,确实存在一个线性方向,沿此方向投影出的数值随序列长度增加而线性增长,精确追踪着计数进度。这种线性结构在多个不同网络层(第16、31、40、53层)均能观察到。
然而,当序列长度超过计数容量时,这种线性结构突然消失,秩序被混乱取代。这意味着模型内部确实存在一种计数状态,但这种状态是有限的,一旦耗尽,便无法读取,模型也就失去了输出正确答案的依据。
研究者还进行了“强制解码”实验:给模型指定正确答案格式,仅让其判断“最可能的下一个token是什么”,观察即便给予提示,模型是否仍认为正确答案合理。结果发现,在成功计数范围内,模型坚信正确答案正确;但一旦超过计数容量,即便给予格式提示,模型也不再认为正确答案是最优选择,其“内心”更倾向于那些圆整的猜测数字。这说明失败并非输出层面的小问题,而是深层认知状态的真实崩溃。
此外,通过使用“稀疏自编码器”工具分析哪些神经元特征与计数最相关,研究者并未找到单一的“计数神经元”。与计数相关的特征是由多个非单调变化的特征共同组成的联合体。这表明AI的计数能力由众多神经元协同实现,是一种分布式、复杂的协作状态,而非像计算机那样由一个简单计数器完成。
“激活补丁”实验:验证因果关系
仅观察还不够。研究者进行了一系列“手术实验”,直接修改AI内部激活状态,以验证这些状态与输出之间是否存在真正的因果关系。
实验逻辑如下:从一个正在数不同数量字母的“捐献者”模型中,提取某一层的神经激活状态,然后将其移植到另一个正在数不同数量字母的“接受者”模型中,观察接受者的输出是否会相应改变。这好比将一个人数到15时的大脑状态,移植到另一个数到10的人脑中,看他最终报出15还是10。
研究者尝试了两种移植方式:一是仅替换最后一个处理单元的状态(相当于在即将说出答案时换上别人的“记忆”);二是替换整个序列处理过程中的所有状态(相当于从头到尾采用别人的“处理方式”)。
结果发现,两种方式均能在一定程度上改变模型输出,但效果在不同网络层差异显著。仅替换最后状态的方式,只在非常靠后的网络层(第51层,共62层)才有效果。替换整个序列的方式,在中间层(第31层)就能产生强烈影响,且效果远强于仅替换最后状态。
这两个发现共同描绘出AI内部计数的“流程”:模型先在中间层的处理过程中,逐字母地建立起追踪序列进度的状态轨迹;然后在靠近输出的晚期层,将此轨迹信息汇聚到最后一个处理位置,并从中解码出最终数字答案。一旦中间层的轨迹无法建立(因超过容量),晚期层便无可用信息,自然无法给出正确答案。
这一机制在另一个完全不同架构的模型(Qwen 3.5 35B,一种混合专家模型)上也得到了类似验证,表明这并非某个特定模型的独特缺陷,而是当前一代AI架构的普遍特征。
与传统测试的对比:揭示系统性盲点
确认计数容量能揭示AI内部状态的真实情况后,研究者将其与三个主流AI评测基准进行了比较:专注知识问答的GPQA Diamond测试、专注代码能力的SWE-bench测试,以及专注抽象推理的ARC-AGI-2测试。
在知识和代码测试方面,AI在这些传统测试上的得分与计数容量之间的相关性相当弱。简言之,一个在知识问答上表现优异的AI,未必有更高的计数容量;反之亦然。这说明传统测试与机械执行能力衡量的是不同的维度,各有盲点。
与ARC-AGI-2的对比则更为耐人寻味。ARC-AGI-2是一个旨在减少知识依赖、强调抽象推理的测试,被认为更接近“测试真正智能”。然而研究者发现,在ARC-AGI-2公开发布之前训练的模型,在该测试上普遍得分很低,但它们的计数容量却各不相同,分布分散,两者无明显关联。而在ARC-AGI-2发布之后训练的新模型,得分普遍大幅提升,且得分与计数容量之间呈现出很强的线性相关。
这一现象揭示了一个深层问题:新模型在ARC-AGI-2上得分更高,未必是因为推理能力真正提升,更可能是因为它们在训练时接触到了该测试的任务格式,从而“学会”了如何应对这类题目。一旦掌握了任务格式,它们在ARC-AGI-2上的表现就变成了计数容量的函数——也就是说,至此,限制其表现的瓶颈才是真正的机械执行能力,而非“是否理解题目”。这与ARC-AGI-3明确声明要防止测试数据泄露的初衷不谋而合。
不止于数数:更复杂的规则追踪同样受限
或许有人会想:AI可能只是不擅长数重复字母这种单调任务,换成稍有结构的任务会否好转?
研究者也对此进行了测试,设计了一个“层级规则追踪”任务:给AI看一系列结构化记录,每条记录包含一个关键词和一条嵌套路径(路径中用交替括号嵌套不同层次信息),以及一堆无关干扰词。AI需要判断每条记录中,关键词是否与路径最深层的词匹配,然后统计所有匹配的数量。
此任务比单纯数字母复杂得多,需要维护更丰富的内部状态(需追踪嵌套层级),但本质仍是“执行简单规则,维护计数状态”。结果,即便是表现最好的模型,也仅在416个正确匹配内保持稳定,超过此数同样突然崩溃。这表明,计数容量的限制并非只针对“数重复字母”这类单调任务,而是反映了AI在维护任何精确内部状态方面的普遍局限。
对现实AI应用的启示
归根结底,这项研究揭示的问题对日常AI应用有何实际影响?
当前,AI被广泛用于代码审查、文档分析、多步骤规划、长对话助手等场景,这些任务都需要AI在较长时间内追踪约束条件、记住中间结果、保持前后一致性。而研究结果告诉我们,这种状态追踪能力在局部范围内可靠,但在超越某个边界后会突然、悄无声息地失效。更危险的是,失效后AI并不会声明“我不知道”,而是继续输出看似合理、却已脱离规则执行的内容。
正因如此,研究者认为,单纯扩大模型规模、增加训练数据、允许更多推理步骤,并不能从根本上解决此问题。要真正提升AI的程序可靠性,可能需要在架构层面进行革新,例如引入外部记忆(让AI能像程序员使用变量一样将中间结果存储于外部)、引入循环结构(使AI能够真正“迭代”而非仅从左到右处理一次)、或引入可验证的执行轨迹(允许检查AI是否真正按规则执行)。这些方向已有研究者探索,但尚未成为主流AI系统的标准配置。
这项研究最重要的贡献,在于提供了一个工具:通过极简的测试,直接测量AI在执行规则方面的真实边界,而非通过复杂任务的表现间接猜测。计数容量就像一个体温计,直接测量的是AI“体内”具体的生理指标,而非通过面色判断健康。一个AI在考试中得高分,不代表其“体温”正常;而体温计测出的数字,则是实实在在、无法作假的。
这对所有依赖AI处理长时间、多步骤任务的人是一个提醒:AI在短期任务中表现出色,但在需要长时间维护精确状态的任务中,存在一个看不见的断崖。了解这个断崖的位置,远比盲目相信AI能“记住一切”更为安全。
Q&A
Q1:大语言模型的“计数容量”是什么意思?
A:计数容量是指一个AI模型能够稳定、准确地数出序列中元素数量的最大值。当序列长度超过此值时,模型不会逐渐变差,而是突然崩溃,开始随机报出500、1000这类整数。研究发现,所有测试模型都有此上限,且远低于其官方宣传的文字处理量。
Q2:加强推理功能(思维链)能帮助AI数更多数字吗?
A:不能。研究对比了普通模型与推理增强版模型的计数表现,发现推理版本消耗了数倍甚至数十倍的计算资源,但计数容量几乎没有提升,有时甚至更差。这是因为计数失败的根本原因是内部状态耗尽,额外的计算无法补充此状态。
Q3:为什么传统AI测试发现不了这个数数失败的问题?
A:传统测试依赖知识问答、代码编写等复杂任务,这些任务的正确答案可通过记忆、模式匹配或语言直觉获得,不一定需要精确执行规则。研究发现,模型在知识测试上的高分与计数容量几乎无关,说明传统测试对程序性执行可靠性存在系统性盲点。
相关攻略
这项由斯坦福大学主导的研究以预印本形式于2026年4月发表,论文编号为arXiv:2604 05336v1。研究提出了一个名为TRACE的系统,全称是“Turning Recurrent Agent failures into Capability-targeted training Environ
这项由斯坦福大学与谷歌深度合作的研究项目,于2026年3月正式发布于权威预印本平台arXiv(论文编号:arXiv:2603 06679v2),首次向世界展示了一个名为MultiGen的突破性AI系统。该系统如同一位拥有无限创意的智能游戏导演,能够实时生成并动态编辑多人游戏世界,为下一代游戏引擎的发
当您在投资应用中询问“应该选择哪只股票”时,屏幕背后的AI究竟是在提供理性的财富管理建议,还是在无形中迎合您当下的情绪冲动?这个看似简单的互动,实际上揭示了智能投顾领域一个长期存在的核心矛盾:如何在理解用户与坚持专业理性之间取得平衡。 近期,一项由麦吉尔大学、哥伦比亚大学及加州州立大学等多所高校联合
这项由斯坦福大学与NVIDIA研究团队共同完成的前沿工作,已于2026年2月以预印本形式发布(论文编号:arXiv:2602 24289v1),为关注AI视频生成技术发展的研究者与从业者提供了详尽的学术参考。 我们可以设想一个生动的教学场景:如果学生仅观看五秒钟的电影片段,他或许能领悟精妙的运镜技巧
这项由浙江大学、新加坡国立大学、多伦多大学等全球顶尖科研机构联合完成的研究成果,已正式发表于2026年国际学习表征会议(ICLR 2026),论文预印本编号为arXiv:2602 19163v1。对于希望深入探究技术细节的读者,可通过此编号查阅完整的学术论文。 在浏览短视频时,你可能已经察觉到一种普
热门专题
热门推荐
英伟达Omniverse定位为物理AI操作系统。松应科技推出ORCALab1 0,旨在构建基于国产GPU的物理AI训练体系。针对机器人行业数据成本高、仿真迁移难的问题,平台提出“1:8:1黄金数据合成策略”,并通过高精度仿真提升数据可用性。平台将仿真与训练集成于个人设备,降低开发门槛,核心战略是在英伟达生态垄断下推动国产替。
Concordium是一个注重合规与隐私的区块链平台,其原生代币为CCD。该平台通过内置身份验证机制平衡隐私与监管要求,旨在服务企业级应用。CCD用于支付交易手续费、网络治理及生态内服务结算。其经济模型包含释放与销毁机制,以维持代币价值稳定。项目在合规金融、供应链、数字身份等领域有应用潜力。
上海人工智能实验室联合多家机构发起国产软硬件适配验证计划,致力于打造覆盖AI全流程的验证平台与自主生态社区。该平台旨在解决国产算力与应用协同难题,构建从芯片到应用的全链路验证体系,支持多种软硬件适配,推动国产AI技术向“好用、易用”发展。商汤科技依托AI大装置深度参与,已。
具身智能行业资本火热,但曾估值超200亿元的达闼科技迅速崩塌。其失败主因在于创始人黄晓庆以通信行业思维经营机器人业务,过度依赖政商关系与资本运作,技术产品突破有限;同时股权结构复杂分散,倚重政府基金,最终因融资断档与商业化不足导致团队离散。这折射出第一代创业者跨。
TurboQuant论文被质疑弱化与RaBitQ的关联,并存在理论比较与实验公平性问题。谷歌借助平台影响力将其定义为突破性成果,凸显了大厂在学术生态中的结构性优势。类似争议在伦理AI、芯片等领域亦有体现,反映了产业界将利益嵌入研究流程的机制。当前AI研究日益由大厂主导,其通过资本、渠道与话语权塑造。





