DeepMind发布SIMA 2:打通感知推理与行动决策闭环

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新智元报道
编辑:peter东
【新智元导读】Deepmind推出的SIMA 2,让智能体能在虚拟环境(商业游戏)中,边聊天边进行复杂的多模态推理。作为具身通用智能的原型,SIMA 2已从静态数据集迈向无限程序化生成的训练场。
游戏领域的进步,一直是可被视为迈向通用人工智能的前奏,从棋类到多人合作的即时战略游戏,例如星际争霸。
但之前的智能体在玩游戏的时候,需要程序开发者手动编程,2024年,Deepmind推出了SIMA(Scalable Instructable Multiworld Agent),允许智能体虚拟环境中遵循自然语言编写的指令,例如你可以通过提示词。让游戏角色前往虚拟环境中的某地。
而近日新推出的SIMA 2,通过整合Gemini的多模态推理能力,让SIMA正从一个指令执行者演变为一个互动游戏伙伴。
SIMA 2不仅能够在虚拟世界中,遵循自然语言指令完成对应的操作,它现在还可以思考自己的目标,与用户对话,并随着时间的推移不断自我提升。

一个与你互动的游戏搭子
相比只能通过「查看」屏幕并使用虚拟键盘和鼠标,根据指令在固定游戏中执行对应操作的SIMA 1,SIMA 2的提升在于它不仅能够响应指令,还能够经由Gemini理解用户的目标,执行复杂推理以达成目标,并在游戏环境中熟练地进行目标导向的行为。这使得SIMA 2可以在它从未见过的游戏中完成任务,具体见下面视频对SIMA 1和SIMA 2的对比。
除了执行指令,SIMA 2还可以与用户多轮对话,一边推理自身行为及其所处环境,一边描述其意图执行的操作,并详细说明其完成目标的步骤。这使得与SIMA 2中智能体的互动,感觉更像是与一个能够理解当前任务的伙伴协作,而不是在下达命令。

图1:智能体-环境接口。智能体接收包含当前指令的提示。根据最近的帧进行条件建模,智能体输出内部推理、对话和动作,并在每一步指定要生成的模态类型。
SIMA的强大泛化能力
吹响迈向通用人工智能的号角
得益于Gemini模型本身的多模态特征,SIMA 2能够理解多模态的提示词,可以进行多语言的对话,甚至能理解表情包。

图2:SIMA 2 可以处理各种新颖且复杂的指令,包括分解指令以成功导航至特定房间。SIMA 2 还可以接受用户手绘的草图,以指定位置、路径或物体。

图3:通过使用Gemini,SIMA 2可以实现更复杂推理能力。例如上图的智能体成功利用复杂图表完成搭建营火的多步骤任务。整个过程中,智能体持续沟通其当前行为和下一步计划。
更关键的是,SIMA 2具有将所学概念迁移的能力。例如,在某一游戏中学到了如何「采矿」,而到了另一游戏中,就会用学到的技能来进行「采集」。
这样的迁移与泛化能力,是通用人工智能的基础。事实上,由于这种能力,SIMA 2在广泛的任务上的表现显著接近人类玩家。

图4:在所有训练游戏环境中中,SIMA 1、SIMA 2 和人类的任务完成成功率对比,SIMA 2相比SIMA 1平均成功率翻倍,在人类和自动评估时下均接近人类水平。

图5:SIMA 2在多个技能类别中显著优于 SIMA 1。在交互和物体管理等类别中,SIMA 2的表现几乎接近人类水平。然而,在资源收集和战斗等其他类别中,SIMA 2 仍有提升空间。
为了测试 SIMA 2 的泛化能力极限,Deepmind的研究者将其与 Genie 3 结合使用,Genie 3 可以根据单个图像或文本提示实时生成新的 3D 模拟世界。
当SIMA 2在这些新生成的世界中进行挑战时,发现它能够合理地定位自身,理解用户指令,并朝着目标采取有意义的行动,尽管它从未见过这些环境。它展现出了前所未有的适应能力。例如下面视频中,SIMA 2能够引导蝴蝶在Genie 3生成的全新环境中,导航找到红色的花朵。
可扩展的、多任务的自我提升
SIMA 2最令人兴奋的新功能之一是其自我提升的能力。
在训练过程中,SIMA 2中的智能体通过试错,以及将Gemini给的反馈作为指导,能够执行越来越复杂和新颖的任务。
例如,在最初从人类给的演示中学习之后,SIMA 2 可以通过自主游戏在新游戏中学习,无需额外示例,就能在之前未见过的世界中提升游戏技能。在后续训练中,SIMA 2 自己的经验数据可以用于训练下一个甚至更强大的智能体。
类似下围棋的Alpha-zero能够在完全不看人类棋谱的时候完成训练。研究者甚至能够利用 SIMA 2的自我提升能力Genie新创建的环境中进行训练,这将是向在多样化生成世界中训练通用智能体的重要一步。

图6:SIMA 2的自我提升循环始于Gemini为SIMA 2提供一个初始任务和对行为的奖励估计。这些信息随后被添加到自生成经验库中,该经验库用于后续版本的进一步训练。
这种迭代改进的良性循环为未来铺平了道路,届时智能体可以在极少的人类干预下学习和成长,成为具身智能中的开放性学习者。

图7:在固定任务集上,SIMA 2的性能稳步提升,逐渐接近,甚至在某些情况下超过了人类的得分。
由于可以在多种游戏环境中,执行复杂的推理和操作,并通过自主游戏持续学习,SIMA 2是迈向人工通用智能(AGI)迈进的重要一步,对机器人技术和通用AI智能体的未来发展具有重要意义。
SIMA 2的出现,说明了借助多样化的多世界数据和Gemini等大模型强大的推理能力,可以成功地将许多特有系统的功能统一到一个连贯的通用智能智能体中,这为机器人领域的应用提供了强有力的方向。
智能体在虚拟环境中所学到的技能,从导航和工具使用到协作任务执行,都会是未来物理世界中 AI 助手所需技能的基本构建模块。
不过,研究者也承认,SIMA 2中的智能体在处理超长时间跨度、复杂的任务时,仍然面临需要大量多步骤推理和目标验证等挑战。
此外,SIMA 2 对交互历史的记忆相对较短。智能体必须使用有限的上下文窗口来实现低延迟的交互。而且通过键盘和鼠标界面执行精确的低级操作,以及在复杂的3D场景中实现稳健的视觉理解,仍然是整个领域持续探索的开放性挑战。
参考资料:
https://x.com/jparkerholder/status/2000543389918339412?s=20
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!
相关攻略
一个学生忽视了一行代码,结果发现了一件很不对劲的事:在一个多模态医学AI项目中,这行代码原本负责让模型读取图像数据。但因为这次疏忽,模型实际上完全没有看到任何图片。按理说系统应该报错,或者至少拒绝回
雷递网 乐天 3月31日智谱CEO张鹏今日在智谱2025年年报沟通会上表示,智谱曾经历过质疑,经历过挫折,但无数事实反复验证了一个判断——智能上界的提升,是大模型AGI时代唯一的 "第一性 "。张鹏说,
快科技3月31日消息,近日,比利时布鲁塞尔自由大学(VUB)数据分析实验室发布重磅研究成果,证实商用大型语言模型已具备独立生成原创数学证明的能力。OpenAI旗下ChatGPT-5 2(Thinki
这项由谷歌智能范式团队联合芝加哥大学、圣塔菲研究所等多家机构完成的突破性研究发表于2026年3月,研究编号为arXiv:2603 20639v1。有兴趣深入了解的读者可以通过这个编号查询完整论文。这
这项由高通AI研究院领导的突破性研究发表于2026年3月的预印本论文,论文编号为arXiv:2603 08462v1。有兴趣深入了解的读者可以通过该编号查询完整论文。这项研究解决了一个让所有AI研究
热门专题
热门推荐
加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这
微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿
稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D
基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一
PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票





