DeepMind新突破:仅用两个参数,精准预测LLM错误率
模型在需要连续多步推理的任务中表现不佳,未必是因为它“变笨了”或者“逻辑能力突然失效”。更可能的原因,是注意力机制中微小的预测偏差,像“热噪声”一样在漫长的生成过程中不断累积,最终达到了无法忽视的程度。这意味着,通过精心设计的 Prompt(例如强制模型使用更稳健的中间步骤来“重置”这种噪声),我们可以显著降低其犯错概率。
你是否遇到过这种情况:一个在写诗、编程上表现惊艳的大模型,却在进行简单的多位数加法、或者玩“汉诺塔”游戏时,随着步骤增多,会突然“智商掉线”?
相关研究论文发布于ArXiv。
通常,我们会把这种现象归结为“推理崩溃”或者模型缺乏“组合泛化能力”。但 Google DeepMind 和塔塔基础研究院的一项最新研究,提出了一个颠覆性的观点:这可能只是一个简单的“噪声累积”问题。
这项研究借鉴了物理学中有效场论的视角,发现尽管 LLM 拥有数千亿参数,但决定其在长序列任务中准确率的,居然只有两个关键的有效参数。
物理学视角的降维打击
在物理学中,虽然流体由无数微观分子组成,但在宏观层面,我们只需要“密度”和“粘度”等少数几个参数就能精确描述其整体行为。
研究团队认为,LLM 也是如此。虽然模型内部参数浩如烟海,但在处理确定性任务(如算术、逻辑推理)时,其错误行为可以被简化为一个双参数模型来刻画。
研究者提出,LLM 的出错并非源于“逻辑不懂”,而是源于注意力机制中微小的预测偏差。这些微小的偏差在长序列生成过程中不断累积,一旦超过某个阈值,模型就会输出一个错误的词元。
核心公式:仅需两个参数
基于上述假设,论文推导出了一个简洁优美的公式,用来描述模型准确率与任务复杂度之间的关系。
这个公式看着复杂,但核心变量只有两个:

1. r(噪声率):这是一个极小的数,代表每个词元产生的基本“噪声”。
2. q(错误方向数):这是一个数量级为 1 的数,代表在预测时可能偏离的“错误方向”的数量。
这个公式告诉我们:随着任务复杂度(例如加法位数、推理步数)的线性增加,噪声会以指数速度累积,导致准确率呈现特定的衰减曲线。
实验验证:惊人的拟合度
为了验证这个理论,研究团队在 Gemini 2.5 Flash、Gemini 2.5 Pro 以及 DeepSeek R1 上进行了广泛测试。测试任务包括列表反转、嵌套线性变换、动态规划、汉诺塔、加法乘法等 8 种类型,涉及超过 20 万个不同的 Prompt。
结果令人震惊:理论预测曲线与实际观测数据高度重合!
无论是 DeepSeek R1 还是 Gemini 系列,在绝大多数任务中,其错误率随任务长度的变化都完美遵循上述公式。
图表
图:不同模型在乘法任务上的准确率随复杂度变化的曲线,实线为理论预测,点为实际数据。可以看到拟合度极高。
有趣的发现:Gemini Pro 的“异常”
在“普通加法”任务中,Gemini 2.5 Pro 最初并不符合这个公式。为什么?
研究人员推测,这是因为 Gemini Pro 过于“聪明”,它可能针对不同长度的数字使用了不同的内部算法,破坏了模型参数不变的前提假设。
为了验证这一点,研究人员设计了一个 Prompt,强制模型使用特定的步骤分解算法来进行加法。结果,Gemini Pro 的表现立刻回归到了理论曲线。这反向证明了:只要算法路径是确定的,噪声累积理论就是成立的。
结论与启示
这项研究不仅为我们提供了一个量化评估 LLM 长任务可靠性的工具,更重要的是,它为“长文本推理”难题祛魅了。
模型在长任务中失败,不一定是因为它“变笨了”或“推理能力崩溃”,很可能只是因为注意力机制中的“热噪声”累积到了不可忽略的程度。这意味着,通过精心设计的 Prompt(例如强制模型使用更稳健的中间步骤来“重置”这种噪声),我们可以显著降低错误率。
物理学的思维方式,再一次在 AI 领域展现了其化繁为简的魔力。
相关攻略
这项由谷歌、谷歌DeepMind与威斯康星大学麦迪逊分校合作的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605 07039。 一、当AI学会“复盘”:从机械搜索到经验内化 许多复杂问题的答案,并非直接查询可得,而是需要通过反复“尝试”来探索。例如,如何设计更稳定的蛋白质结构、寻
英国皇家工程院公布2022年新晋院士名单,共72位顶尖人物入选。DeepMind研究副总裁科拉伊·卡武克屈奥卢当选,其联合创始人此前也已获此殊荣。名单中还包括5位华人学者。该院旨在表彰工程与技术领域的卓越贡献者,并致力于通过工程推动社会可持续发展与包容性经济。
这项由Google DeepMind与北卡罗来纳大学教堂山分校合作的前沿研究,已于2026年3月25日正式发布,其完整论文可在arXiv预印本平台通过编号2603 22529v1查阅。 想象一下:一个AI助手能熟练地操作网页,却对你眼前真实世界的一切视而不见。例如,你透过AR眼镜看中一款包,却无法让
谷歌DeepMind推出“魔法指针”AI技术,能智能理解屏幕内容与用户意图。用户只需用鼠标指向目标并说出指令,系统即可执行复杂操作,例如指向视频中的餐厅直接生成预订链接。该功能已在AIStudio演示,并将逐步集成至Chrome浏览器,实现更自然的交互体验。
2026年2月,一篇编号为arXiv:2602 10177v1的预印本论文悄然发布,它来自Google DeepMind。这篇论文所揭示的进展,或许标志着人工智能在科学探索领域的一个分水岭:AI不再仅仅是解决预设问题的工具,而是开始涉足人类知识的前沿——自主进行数学研究。 回想AlphaGo战胜世界
热门专题
热门推荐
钉钉文档官网 在探讨企业级协同办公解决方案时,钉钉文档无疑是备受瞩目的核心工具之一。作为阿里巴巴钉钉官方推出的旗舰级应用套件,它深度融合了在线文档编辑、智能表格、思维导图等多种高效创作工具。其核心优势在于与钉钉平台生态的无缝衔接,能够直接同步企业内部组织架构与通讯录,实现团队成员间的即时协作与信息流
在数字化转型浪潮中,高效、易用的数据分析工具已成为企业提升决策效率的关键。商汤科技推出的“办公小浣熊”智能助手,正是基于自研大语言模型打造的一款创新产品,旨在彻底降低数据分析的技术门槛。用户无需掌握编程知识或复杂操作,即可通过自然对话完成从数据查询、处理到可视化洞察的全流程,让数据价值触手可及。 办
在人工智能技术快速发展的今天,MiniMax作为一家专注于全栈自研的AI公司,正以其独特的技术路径和前瞻性的布局,在业界脱颖而出。公司致力于构建覆盖文本、图像、语音和视频的新一代多模态智能模型矩阵,这不仅体现了对核心底层技术自主权的深度掌控,也展现了对未来人机交互与内容生成形态的前瞻思考。 那么,M
ApolloCreditFund(ACRED)作为连接传统信贷与DeFi的桥梁,其价格受市场情绪、协议基本面及宏观环境影响。其价值逻辑根植于现实世界资产(RWA)的收益捕获与链上流动性释放。短期价格波动难以预测,但长期发展取决于信贷资产质量、协议安全性和市场采用度。投资者需关注其底层资产表现、代币经济模型及整个RWA赛道的发展趋势。
在数字化转型浪潮中,一套能够深度适配业务、彰显品牌特色的智能客服系统,已成为企业提升服务效率与用户体验的关键工具。然而,市场上许多解决方案往往模式固化,难以满足个性化需求。如何让AI客服不仅具备基础的自动化应答能力,更能承载独特的品牌文化与服务哲学?其核心在于系统是否支持深度的自定义与持续的AI训练





