DeepMind团队最新发布Gemini Robotics 1.5系列智能模型,这是一套突破性的机器人与实体智能解决方案。该系列包含两个核心组成部分:专注于机械控制的Gemini Robotics 1.5,以及擅长环境推理的Gemini Robotics-ER 1.5,二者协同构建完整的智能决策系统。
作为领先的视觉-语言-动作集成模型,Gemini Robotics 1.5实现了从感官输入到动作执行的精准转化。最新升级带来了"思维-行为"闭环能力,在执行前会生成详细的推理链条。测试案例中,面对垃圾分类任务,机器人可以自主查阅操作规范,通过物品特征分析进行准确投放;在旅行用品打包场景下,不仅能完成任务需求,还会主动查询目的地气象信息并添加必要物品,展现出出色的多级任务规划能力。
深度推理与环境理解
Gemini Robotics-ER 1.5展现了卓越的空间认知与逻辑判断能力。该模型支持自然语言交互,可以实时调用网络资源获取最新信息,并能准确评估任务执行状态与成功率。在协同作业中,ER 1.5负责制定结构化指令,由基础模型执行具体操作,同时还能通过语言反馈不断优化决策流程。
跨形态学习突破
这套系统最大的创新在于突破性的跨设备学习能力。与需要针对每种机型单独训练的传统方案不同,Gemini Robotics 1.5实现了技能在不同形态设备间的无缝迁移。实验证实,从未接触过衣柜操作的Apollo机器人,能够成功运用学习到的技能完成开门、取物等系列动作,充分展示了算法对各种传感配置和机械结构的自适应能力。
技术实现与性能表现
这两个模型基于统一的Gemini架构,通过专业数据集进行功能强化。测试数据显示,Gemini Robotics-ER 1.5在物体识别和轨迹预测等核心指标上表现优异。其能力覆盖包括状态监测、图像分割、目标追踪在内的复杂操作,并具备实时评估任务进度的能力。
实际应用案例
在水果分选实验中,系统展现出精准的视觉分析与操作能力;而在衣物分类场景下,机器人可以自动调整机械臂姿态以获得最佳抓取效果,并对突发状况做出即时响应。这些案例充分展现了新一代智能体从被动执行向自主决策的关键转变。
