不得不说,谷歌DeepMind近期的技术突破确实令人瞩目。其升级后的人工智能模型,已能驱动机器人完成更复杂的任务——更关键的是,它们还会自主上网查阅资料来辅助执行。
DeepMind机器人技术负责人卡罗莱娜·帕拉达(Carolina Parada)解释道,他们推出的新型AI模型能够协同运作,让机器人在物理世界真正动手之前,提前规划出多个步骤。这背后由两套引擎驱动:新发布的Gemini Robotics 1.5,以及具身推理模型Gemini Robotics-ER 1.5。它们都是谷歌DeepMind于今年3月推出的AI模型的最新升级版本。
如今,机器人能做的远不止折纸或拉开拉链那么简单。你可以让它按深浅色分类衣物、根据伦敦实时天气收拾行李箱,甚至——最令人印象深刻的是——它能针对当地规定进行网络搜索,帮你判断手头物品究竟是垃圾、堆肥物还是可回收物。这才是真正意义上的“智能助手”。
帕拉达打了个比方:“此前发布的模型能以非常通用的方式,每次精准执行单一指令。但通过本次升级,我们正从‘单一指令执行’迈向对实体任务的真正理解与问题解决。”概括来说就是:从“听话照做”进化成了“理解任务”。

具体如何实现?流程大致如下:机器人先用升级后的Gemini Robotics-ER 1.5模型感知周围环境,再通过谷歌搜索等数字工具获取更多信息。随后,ER模型将检索结果转化为自然语言指令,传递给Gemini Robotics 1.5模型。后者凭借强大的视觉与语言理解能力,指挥机器人一步步完成整个任务。这个“思考-检索-行动”的闭环,让机器人的灵活性提升了一个层级。
除此之外,谷歌DeepMind还透露了一项重要进展:Gemini Robotics 1.5能帮助不同配置的机器人实现相互学习。研究发现,面向ALOHA2双机械臂机器人训练的任务,可以直接应用到双臂Franka机器人以及Apptronik的人形机器人Apollo身上。换句话说,技能不再是“一机专用”,而是可以跨平台迁移。
DeepMind软件工程师卡尼什卡·拉奥(Kanishka Rao)在发布会上直言:“我们实现了两大突破。第一,能用单一模型控制包括人形机器人在内的多种机器人;第二,某台机器人习得的技能,现在可以迁移至其他机器人。”这才是真正的通用性——硬件不同,但大脑共享。
目前,谷歌DeepMind已通过Google AI Studio中的Gemini API,向开发者开放了Gemini Robotics-ER 1.5模型。而Gemini Robotics 1.5则暂时仅对特定合作伙伴开放。可以预见,随着更多开发者接入,机器人能掌握的“新本领”只会越来越多。
