DeepMind终结十年争论：GPT-5倚仗世界模型实现关键推理

时间：2025-10-31 18:11

【导读】GPT-5的惊艳之处，不只是写得好，还有超强的推理能力。近期的一个研究揭示了其中的秘密：通用智能体之所以聪明，不是因为参数更大，而是因为它们在脑子里长出了一张「世界模型」。而这张隐形的地图，

【导读】GPT-5令人惊艳之处，不只是文笔流畅，更在于它展现出强大的推理能力。近期一项研究揭开了背后的秘密：通用智能体之所以聪明，并非因为参数更多，而是它们在“大脑”中悄然构建起一张“世界模型”。这幅无形的认知地图，也正在重塑我们对AI的理解。

GPT-5正式推出后，最让人震撼的并非其吟诗作画的本领，而是它在逻辑推理上的惊人表现。

网友感叹：“感觉像是在和博士讨论问题”，更有媒体直言它的逻辑水平已经“堪比专家”。

为什么会出现这种“思维飞跃”的效果？

最新发布的研究论文给出了答案：

通用智能体能进行推理，不靠死记硬背，而是因为它们在神经网络中悄然生成了对现实世界的抽象表征。

论文传送门：https://arxiv.org/pdf/2506.01622

是模仿还是思考？学界争论了十年之久

究竟什么是“世界模型”？简单来说，它就是AI对现实规律的预测图谱。

对人类而言，我们天生具备预测的能力：

球在桌边滚动→它可能会掉下去

开车时看到红灯→如果不刹车可能引发事故

两个人对话，其中一人说“我饿了”→下一步很可能要寻找食物

那么对于AI来说，它是如何形成这种能力的呢？

在过去的十几年里，学界一直在争论——AI到底仅靠模仿（无模型学习），能否真正解决复杂问题？

“模仿派”认为，只要有足够多的数据加上强大的算力，AI就能像条件反射一样给出正确答案。

在GPT-3.5时代，大部分AI的回答都像在“背诵题库”，有时蒙对，有时则完全错误。

与此相对的则是“思考派”。他们坚持认为，如果没有形成对现实的理解框架，AI永远只是机械的复读机。

一旦问题需要多步逻辑推理，比如解数学题、规划一个流程，纯模仿型AI就会掉链子。

最近，一项研究为这些争论按下了终止键：

任何一个智能体只要能完成多步骤的复杂目标任务，它的策略中就必然隐含了对环境的认知模型。

在学术框架中，“目标、策略、世界模型”曾经像缺了一角的三角形。

已知世界模型和目标，可以推导出最优策略；已知策略和世界模型，可以反推出目标。

图1 目标g、策略π、世界模型p之间的三角关系

而现在最后一角也被补齐——只要知道智能体的策略和目标，就能恢复出它对环境的理解模型。

这个推导让“世界模型不可或缺”的结论更加稳固。

也就是说，GPT-5之所以能展现惊人的推理能力，是因为它在训练过程中，逐步形成了对现实规律的内在表征。

可以说，没有世界模型，就没有真正的通用智能。

探究AI大脑里的认知地图

仅有理论还不够，研究团队决定深入验证。

既然说智能体一定会“形成”世界模型，那么我们能否在实验室里，把这张隐形的“认知地图”提取出来？

为AI搭建的“迷你世界”

为了验证AI体内是否真的存在世界模型，研究团队设计了一个巧妙的实验。

他们搭建了一个虚拟世界，里面只有几个状态（X、Y），它们会按一定概率互相跳转。

然后研究人员将任务交给智能体，让它自主探索这个世界。

最后，研究人员尝试仅根据智能体的行为表现，反推出它对状态转换规律的认知。

图2 智能体-环境系统示意图

任务越复杂，误差反而越小

刚开始，智能体在简单目标里横冲直撞，恢复出来的世界模型差错很多，还有一堆错误。

可当任务变得复杂（比如要先到X，再转到Y），情况就完全不同：它会自动构建更精细的“状态转移概率表”。

随着任务难度增加，世界模型的误差迅速下降。

图3 任务复杂度vs世界模型误差曲线

无论是训练样本还是任务深度，结果都指向同一个结论——任务越复杂，世界模型越精确。

实验员还尝试了更复杂的目标组合：智能体需要在不同状态之间来回跳转，才能完成目标。

图4 复合目标实验示意图

没有认知地图，就没有真正智能

数学推理也印证了这一点。

实验表明，只要一个智能体在复杂任务中不会频繁犯低级错误，始终保持有限的“后悔值”，它的策略中就必然已经包含了环境的转移规律。

也就是说——世界模型不是AI的附加功能，而是它进化的必需品。

智能体越强大，内心构建的“认知地图”就越精确。

这就是为什么GPT-5会让人觉得“突然会推理了”，其实是它脑内的世界模型日渐清晰的体现。

一幅认知地图带来的希望与隐忧

实验告诉我们：只要AI能完成复杂任务，它的大脑里就一定存在某种“世界模型”。

这也解释了近来备受关注的“涌现能力”现象。

研究表示，这并非魔法，而是AI在完成任务过程中，认知模型逐步清晰的必然结果。

我们以为GPT-5突然学会了推理，其实是它在任务进程中，内部的世界模型逐渐明晰，于是能力自然显现。

这让人类看到了希望：如果世界模型真的存在，我们或许有机会把它抽取出来，借此理解AI的内心世界。

未来，当它变得更强大时，这或许能成为破解黑箱、提升安全性的关键。

但这也埋下了隐忧的种子。

真实世界远比实验室复杂，AI学到的地图或许是模糊的，甚至与人类理解不一致。

可能它觉得安全，而我们觉得危险。

对研究者来说，这同样是一个转机。

既然世界模型必然存在，那么我们或许能在未来把它抽取出来，用以解释和验证AI的决策依据。

这意味着，破解“黑箱”不再只是愿景，而有了真正的理论支撑。

所以，GPT-5带来的震撼不只是“它会推理”，更深层的意义在于：AI已经能在大脑中构建自己的认知地图。

而这幅地图，既可能是通往智慧之路的通行证，也可能成为未来不确定性的源头。

参考资料：

https://arxiv.org/abs/2506.01622

来源：https://36kr.com/p/3532732831603585

上一篇安克避坑指南：3招解决设备连接难题 下一篇自如14年变革2次，重塑租赁行业的底层逻辑

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-04

理想新车布局预测：L9L与i9上半年发布

1月23日消息，综合权威公开信息与行业趋势研判，理想汽车2026年度新车布局规划正式曝光。此番产品线布局，不仅持续深耕SUV市场，同时加速补齐全场景覆盖的拼图。理想L9旗舰SUV 在增程动力领域，理想L系列将迎来一位新成员——L9L，预计2026年上半年正式上市，预估售价区间为45万至55万元。与

科技数码 · 2026-07-04

三星消息应用7月停用部分旧设备可继续使用

6月29日，多家海外媒体援引三星官方消息证实，三星消息（Samsung Messages）应用将于2026年7月正式终止服务。随着这个截止日期越来越近，依然在使用该应用的Galaxy用户需要尽快迁移到新的默认信息工具。其实过去两年里，三星一直在悄悄引导用户转向谷歌信息（Google Messages

科技数码 · 2026-07-04

吉利发布2030战略：年销650万辆全面迈向全球前五

1月22日，吉利控股集团在北京召开战略解析大会，正式发布“一个吉利，全面领先”的2030战略蓝图。战略目标清晰明确：到2030年，全球总销量（含乘用车与商用车）突破650万辆，稳居全球车企前五。其中，新能源车型占比预计达到75%左右，海外销量占比超过三分之一。尤为关键的是，依托全新全球化架构，单车型

科技数码 · 2026-07-04

OPPO Find X9系列旗舰手机累计销量突破250万部Ultra版超12万部

OPPO Find X9 Ultra 旗舰机型回顾产品发布背景：Find X9系列于2025年10月正式登场，作为OPPO年度旗舰产品线，涵盖标准版、Pro版与Ultra版三大版本。该系列的核心竞争力十分明确——影像系统与综合性能的双重显著提升。上市以来，凭借芯片算力、屏幕显示素质、续航表现以及影

科技数码 · 2026-07-04

IntelliJ IDEA 2025.3.2 版本正式发布

IntelliJ IDEA 2025 3 2 版本现已正式发布。除了常规的漏洞修复与功能完善，本次更新有几个修复点值得格外关注——特别是如果你经常使用终端工具执行命令，或者正在采用远程开发工作流。终端工具窗口的闪烁问题终于得到彻底解决。此前在调用支持同步输出的命令行工具（例如 Claude Code