首页 游戏 软件 资讯 排行榜 专题
首页
AI
DeepMind新突破:仅用两个参数,精准预测LLM错误率

DeepMind新突破:仅用两个参数,精准预测LLM错误率

热心网友
88
转载
2026-01-27

模型在需要连续多步推理的任务中表现不佳,未必是因为它“变笨了”或者“逻辑能力突然失效”。更可能的原因,是注意力机制中微小的预测偏差,像“热噪声”一样在漫长的生成过程中不断累积,最终达到了无法忽视的程度。这意味着,通过精心设计的 Prompt(例如强制模型使用更稳健的中间步骤来“重置”这种噪声),我们可以显著降低其犯错概率。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

你是否遇到过这种情况:一个在写诗、编程上表现惊艳的大模型,却在进行简单的多位数加法、或者玩“汉诺塔”游戏时,随着步骤增多,会突然“智商掉线”?

相关研究论文发布于ArXiv。

通常,我们会把这种现象归结为“推理崩溃”或者模型缺乏“组合泛化能力”。但 Google DeepMind 和塔塔基础研究院的一项最新研究,提出了一个颠覆性的观点:这可能只是一个简单的“噪声累积”问题。

这项研究借鉴了物理学中有效场论的视角,发现尽管 LLM 拥有数千亿参数,但决定其在长序列任务中准确率的,居然只有两个关键的有效参数。

物理学视角的降维打击

在物理学中,虽然流体由无数微观分子组成,但在宏观层面,我们只需要“密度”和“粘度”等少数几个参数就能精确描述其整体行为。

研究团队认为,LLM 也是如此。虽然模型内部参数浩如烟海,但在处理确定性任务(如算术、逻辑推理)时,其错误行为可以被简化为一个双参数模型来刻画。

研究者提出,LLM 的出错并非源于“逻辑不懂”,而是源于注意力机制中微小的预测偏差。这些微小的偏差在长序列生成过程中不断累积,一旦超过某个阈值,模型就会输出一个错误的词元。

核心公式:仅需两个参数

基于上述假设,论文推导出了一个简洁优美的公式,用来描述模型准确率与任务复杂度之间的关系。

这个公式看着复杂,但核心变量只有两个:

1. r(噪声率):这是一个极小的数,代表每个词元产生的基本“噪声”。

2. q(错误方向数):这是一个数量级为 1 的数,代表在预测时可能偏离的“错误方向”的数量。

这个公式告诉我们:随着任务复杂度(例如加法位数、推理步数)的线性增加,噪声会以指数速度累积,导致准确率呈现特定的衰减曲线。

实验验证:惊人的拟合度

为了验证这个理论,研究团队在 Gemini 2.5 Flash、Gemini 2.5 Pro 以及 DeepSeek R1 上进行了广泛测试。测试任务包括列表反转、嵌套线性变换、动态规划、汉诺塔、加法乘法等 8 种类型,涉及超过 20 万个不同的 Prompt。

结果令人震惊:理论预测曲线与实际观测数据高度重合!

无论是 DeepSeek R1 还是 Gemini 系列,在绝大多数任务中,其错误率随任务长度的变化都完美遵循上述公式。

图表图表

图:不同模型在乘法任务上的准确率随复杂度变化的曲线,实线为理论预测,点为实际数据。可以看到拟合度极高。

有趣的发现:Gemini Pro 的“异常”

在“普通加法”任务中,Gemini 2.5 Pro 最初并不符合这个公式。为什么?

研究人员推测,这是因为 Gemini Pro 过于“聪明”,它可能针对不同长度的数字使用了不同的内部算法,破坏了模型参数不变的前提假设。

为了验证这一点,研究人员设计了一个 Prompt,强制模型使用特定的步骤分解算法来进行加法。结果,Gemini Pro 的表现立刻回归到了理论曲线。这反向证明了:只要算法路径是确定的,噪声累积理论就是成立的。

结论与启示

这项研究不仅为我们提供了一个量化评估 LLM 长任务可靠性的工具,更重要的是,它为“长文本推理”难题祛魅了。

模型在长任务中失败,不一定是因为它“变笨了”或“推理能力崩溃”,很可能只是因为注意力机制中的“热噪声”累积到了不可忽略的程度。这意味着,通过精心设计的 Prompt(例如强制模型使用更稳健的中间步骤来“重置”这种噪声),我们可以显著降低错误率。

物理学的思维方式,再一次在 AI 领域展现了其化繁为简的魔力。

来源:https://www.51cto.com/article/834944.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

DeepMind之父警示:我创造的人工智能或毁灭人类,却已无法阻止
业界动态
DeepMind之父警示:我创造的人工智能或毁灭人类,却已无法阻止

3月31日消息,近日,DeepMind创始人德米斯・哈萨比斯坦言,其研发的超级人工智能存在灭绝人类的风险,而当前AI发展竞赛已进入无法停止的状态,人类难以通过外部治理手段有效管控。他彻底放弃此前依赖

热心网友
03.31
马拉松比谈哈萨比斯:引领谷歌重返AI王座之路
科技数码
马拉松比谈哈萨比斯:引领谷歌重返AI王座之路

21世纪经济报道记者 董静怡2024年的伦敦,科技史学家、金融史学家塞巴斯蒂安·马拉比找到了德米斯·哈萨比斯。彼时ChatGPT尚未引爆全球,AI远未成为茶余饭后的谈资。但马拉比已经嗅到了风暴的气息

热心网友
03.31
DeepMind之父警示:我开发的AI或威胁人类,却已难以阻止
AI
DeepMind之父警示:我开发的AI或威胁人类,却已难以阻止

新智元报道编辑:KingHZ【新智元导读】从拦截彼得·蒂尔、警告马斯克,到如今公开说「必须有适应能力」,哈萨比斯史诗级转身:AI安全窗口正在永久关闭,他不再幻想制度,而是赌上全部身家——赌影响力,赌

热心网友
03.30
新民艺评|水姐:剖析哈萨比斯的“无限机器”与注意力法门
科技数码
新民艺评|水姐:剖析哈萨比斯的“无限机器”与注意力法门

在当代科技史上,德米斯·哈萨比斯(Demis Hassabis)更像是一个拿着数字钥匙的古典主义者。他将科学家的严谨、游戏设计者的想象力与战略家的博弈直觉结合得如此无缝。当你翻开塞巴斯蒂安·马拉比的

热心网友
03.30
DeepMind突破性AI技术:文本生成速度提升16倍的实现路径
科技数码
DeepMind突破性AI技术:文本生成速度提升16倍的实现路径

这项由谷歌DeepMind阿姆斯特丹团队完成的开创性研究发表于2026年3月的arXiv预印本平台(论文编号:arXiv:2603 20155v1),为人工智能文本生成技术带来了革命性突破。有兴趣深

热心网友
03.30

最新APP

史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29
暗黑之地
暗黑之地
角色扮演 03-28

热门推荐

OPPO Find X9 Ultra联名哈苏影像 4月21日重磅发布
网络安全
OPPO Find X9 Ultra联名哈苏影像 4月21日重磅发布

PChome 3月31日消息,OPPO官微官宣,OPPOx哈苏影像新品联合发布会将于4月21日晚19:00在成都举办,Find X9s Pro、Find X9 Ultra等新品将至。据了解,OPPO

热心网友
03.31
2026最新小红书官网登录入口与PC端访问地址
电脑教程
2026最新小红书官网登录入口与PC端访问地址

小红书网页版登录入口为https: www xiaohongshu com explore,支持扫码、手机号验证码及微信三种登录方式,首页默认瀑布流展示热门笔记,具备多维度内容检

热心网友
03.31
举证难与盗声困境:AI模仿维权路径指南
科技数码
举证难与盗声困境:AI模仿维权路径指南

两年前,谢添天发现自己的声音被一款APP“盗”走——用户输入文本,即可用他的音色生成以假乱真的AI声音。维权半年,因举证难度太高,最终以和解和对方致歉了结。两年后,一场大规模的联合发声,将AI盗声侵

热心网友
03.31
数字智能赋能正能量:网络媒体论坛探讨三个治理方向
科技数码
数字智能赋能正能量:网络媒体论坛探讨三个治理方向

来源:央广网3月28日至29日,以“发挥主流媒体引领力 激发多元主体创造力——共创繁荣网络内容生态”为主题的2026中国网络媒体论坛在河南郑州举行。网络媒体因技术而诞生,凭创新而繁荣。面对新一轮科技

热心网友
03.31
AI驱动CRM升级:企业级智能解决方案重塑付费模式
科技数码
AI驱动CRM升级:企业级智能解决方案重塑付费模式

当大语言模型与AgenticAI(智能体)从试验场进入企业级生产环境,SaaS行业的底层价值逻辑正面临系统性重估。这一轮变革的核心,正指向“AI CRM 2 0”的全面到来——它不再是传统CRM的功

热心网友
03.31