DeepMind新突破：仅用两个参数，精准预测LLM错误率

首页

热心网友

转载

2026-01-27

模型在需要连续多步推理的任务中表现不佳，未必是因为它“变笨了”或者“逻辑能力突然失效”。更可能的原因，是注意力机制中微小的预测偏差，像“热噪声”一样在漫长的生成过程中不断累积，最终达到了无法忽视的程度。这意味着，通过精心设计的 Prompt（例如强制模型使用更稳健的中间步骤来“重置”这种噪声），我们可以显著降低其犯错概率。

你是否遇到过这种情况：一个在写诗、编程上表现惊艳的大模型，却在进行简单的多位数加法、或者玩“汉诺塔”游戏时，随着步骤增多，会突然“智商掉线”？

相关研究论文发布于ArXiv。

通常，我们会把这种现象归结为“推理崩溃”或者模型缺乏“组合泛化能力”。但 Google DeepMind 和塔塔基础研究院的一项最新研究，提出了一个颠覆性的观点：这可能只是一个简单的“噪声累积”问题。

这项研究借鉴了物理学中有效场论的视角，发现尽管 LLM 拥有数千亿参数，但决定其在长序列任务中准确率的，居然只有两个关键的有效参数。

物理学视角的降维打击

在物理学中，虽然流体由无数微观分子组成，但在宏观层面，我们只需要“密度”和“粘度”等少数几个参数就能精确描述其整体行为。

研究团队认为，LLM 也是如此。虽然模型内部参数浩如烟海，但在处理确定性任务（如算术、逻辑推理）时，其错误行为可以被简化为一个双参数模型来刻画。

研究者提出，LLM 的出错并非源于“逻辑不懂”，而是源于注意力机制中微小的预测偏差。这些微小的偏差在长序列生成过程中不断累积，一旦超过某个阈值，模型就会输出一个错误的词元。

核心公式：仅需两个参数

基于上述假设，论文推导出了一个简洁优美的公式，用来描述模型准确率与任务复杂度之间的关系。

这个公式看着复杂，但核心变量只有两个：

1. r（噪声率）：这是一个极小的数，代表每个词元产生的基本“噪声”。

2. q（错误方向数）：这是一个数量级为 1 的数，代表在预测时可能偏离的“错误方向”的数量。

这个公式告诉我们：随着任务复杂度（例如加法位数、推理步数）的线性增加，噪声会以指数速度累积，导致准确率呈现特定的衰减曲线。

实验验证：惊人的拟合度

为了验证这个理论，研究团队在 Gemini 2.5 Flash、Gemini 2.5 Pro 以及 DeepSeek R1 上进行了广泛测试。测试任务包括列表反转、嵌套线性变换、动态规划、汉诺塔、加法乘法等 8 种类型，涉及超过 20 万个不同的 Prompt。

结果令人震惊：理论预测曲线与实际观测数据高度重合！

无论是 DeepSeek R1 还是 Gemini 系列，在绝大多数任务中，其错误率随任务长度的变化都完美遵循上述公式。

图表

图：不同模型在乘法任务上的准确率随复杂度变化的曲线，实线为理论预测，点为实际数据。可以看到拟合度极高。

有趣的发现：Gemini Pro 的“异常”

在“普通加法”任务中，Gemini 2.5 Pro 最初并不符合这个公式。为什么？

研究人员推测，这是因为 Gemini Pro 过于“聪明”，它可能针对不同长度的数字使用了不同的内部算法，破坏了模型参数不变的前提假设。

为了验证这一点，研究人员设计了一个 Prompt，强制模型使用特定的步骤分解算法来进行加法。结果，Gemini Pro 的表现立刻回归到了理论曲线。这反向证明了：只要算法路径是确定的，噪声累积理论就是成立的。

结论与启示

这项研究不仅为我们提供了一个量化评估 LLM 长任务可靠性的工具，更重要的是，它为“长文本推理”难题祛魅了。

模型在长任务中失败，不一定是因为它“变笨了”或“推理能力崩溃”，很可能只是因为注意力机制中的“热噪声”累积到了不可忽略的程度。这意味着，通过精心设计的 Prompt（例如强制模型使用更稳健的中间步骤来“重置”这种噪声），我们可以显著降低错误率。

物理学的思维方式，再一次在 AI 领域展现了其化繁为简的魔力。

来源:https://www.51cto.com/article/834944.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：英国国王自购新车揭秘：全车中国零部件组装的背后下一篇：理想汽车李想展望2028：2025年实现L4自动驾驶

相关攻略

谷歌与DeepMind联手推进人工智能进化之路

这项由谷歌、谷歌DeepMind与威斯康星大学麦迪逊分校合作的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605 07039。一、当AI学会“复盘”：从机械搜索到经验内化许多复杂问题的答案，并非直接查询可得，而是需要通过反复“尝试”来探索。例如，如何设计更稳定的蛋白质结构、寻

热心网友

05.15

DeepMind副总裁Kavukcuoglu当选英国皇家工程院院士五位华人学者入选

英国皇家工程院公布2022年新晋院士名单，共72位顶尖人物入选。DeepMind研究副总裁科拉伊·卡武克屈奥卢当选，其联合创始人此前也已获此殊荣。名单中还包括5位华人学者。该院旨在表彰工程与技术领域的卓越贡献者，并致力于通过工程推动社会可持续发展与包容性经济。

热心网友

05.15

DeepMind AI首次解读第一人称视角开启视觉智能新纪元

这项由Google DeepMind与北卡罗来纳大学教堂山分校合作的前沿研究，已于2026年3月25日正式发布，其完整论文可在arXiv预印本平台通过编号2603 22529v1查阅。想象一下：一个AI助手能熟练地操作网页，却对你眼前真实世界的一切视而不见。例如，你透过AR眼镜看中一款包，却无法让

热心网友

05.14

谷歌AI鼠标新突破：DeepMind揭秘智能指针如何精准理解用户意图

谷歌DeepMind推出“魔法指针”AI技术，能智能理解屏幕内容与用户意图。用户只需用鼠标指向目标并说出指令，系统即可执行复杂操作，例如指向视频中的餐厅直接生成预订链接。该功能已在AIStudio演示，并将逐步集成至Chrome浏览器，实现更自然的交互体验。

热心网友

05.14

DeepMind发布AI数学研究助手首次独立完成学术论文撰写

2026年2月，一篇编号为arXiv:2602 10177v1的预印本论文悄然发布，它来自Google DeepMind。这篇论文所揭示的进展，或许标志着人工智能在科学探索领域的一个分水岭：AI不再仅仅是解决预设问题的工具，而是开始涉足人类知识的前沿——自主进行数学研究。回想AlphaGo战胜世界

热心网友

05.14

热门推荐

阿里钉钉文档全功能解析在线协同办公套件使用指南

钉钉文档官网在探讨企业级协同办公解决方案时，钉钉文档无疑是备受瞩目的核心工具之一。作为阿里巴巴钉钉官方推出的旗舰级应用套件，它深度融合了在线文档编辑、智能表格、思维导图等多种高效创作工具。其核心优势在于与钉钉平台生态的无缝衔接，能够直接同步企业内部组织架构与通讯录，实现团队成员间的即时协作与信息流

热心网友

05.15

商汤小浣熊智能助手基于自研大语言模型

在数字化转型浪潮中，高效、易用的数据分析工具已成为企业提升决策效率的关键。商汤科技推出的“办公小浣熊”智能助手，正是基于自研大语言模型打造的一款创新产品，旨在彻底降低数据分析的技术门槛。用户无需掌握编程知识或复杂操作，即可通过自然对话完成从数据查询、处理到可视化洞察的全流程，让数据价值触手可及。办

热心网友

05.15

MiniMax新一代智能模型矩阵全面解析与应用指南

在人工智能技术快速发展的今天，MiniMax作为一家专注于全栈自研的AI公司，正以其独特的技术路径和前瞻性的布局，在业界脱颖而出。公司致力于构建覆盖文本、图像、语音和视频的新一代多模态智能模型矩阵，这不仅体现了对核心底层技术自主权的深度掌控，也展现了对未来人机交互与内容生成形态的前瞻思考。那么，M

热心网友

05.15

web3.0

Apollo Credit Fund价格预测逻辑解析 ACRED未来走势与投资前景

ApolloCreditFund（ACRED）作为连接传统信贷与DeFi的桥梁，其价格受市场情绪、协议基本面及宏观环境影响。其价值逻辑根植于现实世界资产（RWA）的收益捕获与链上流动性释放。短期价格波动难以预测，但长期发展取决于信贷资产质量、协议安全性和市场采用度。投资者需关注其底层资产表现、代币经济模型及整个RWA赛道的发展趋势。

热心网友

05.15

智能客服机器人解决方案：AI客服系统提升企业服务效率

在数字化转型浪潮中，一套能够深度适配业务、彰显品牌特色的智能客服系统，已成为企业提升服务效率与用户体验的关键工具。然而，市场上许多解决方案往往模式固化，难以满足个性化需求。如何让AI客服不仅具备基础的自动化应答能力，更能承载独特的品牌文化与服务哲学？其核心在于系统是否支持深度的自定义与持续的AI训练

热心网友

05.15