谷歌Gemini Robotics 1.5发布：跨本体具身推理处理复杂任务

时间：2025-12-11 16:31

谷歌DeepMind近日推出Gemini Robotics 1 5系列机器人模型，通过思维链机制与模型协作架构，显著提升机器人在物理世界中的自主决策能力。该系列包含Gemini Robotics 1

谷歌DeepMind最新发布了突破性机器人模型Gemini Robotics 1.5系列，该系统通过创新的思维链机制和协同架构设计，大幅提升了机器人在真实环境中的自主决策水平。

双模型协作架构

该系列包含两大核心模型：Gemini Robotics 1.5负责精准执行，Gemini Robotics-ER 1.5专注战略规划，两者构成类似"小脑-大脑"的智能协同体系。

执行层的特点

作为执行主体，Gemini Robotics 1.5是目前最先进的视-言-动一体化模型。其独特优势在于具备具身思维能力：在执行指令前会先以自然语言生成详细的思考过程，将复杂任务分解为可操作的步骤链。比如面对"整理桌面"指令时，会自发规划"物品识别-抓取水杯-移至水槽"等具体动作顺序。这种分步处理模式赋予机器人出色的应变能力，当水杯意外掉落时能立即生成补抓指令。

规划层的突破

Gemini Robotics-ER 1.5在15项学术评测中刷新纪录，空间推理能力超越GPT-5等主流模型。它能有效融合多角度视觉信息，精准响应类似"指向左下方蓝杯"的具体指令，并能持续评估行动效果与目标的匹配程度。

技术实现细节

两大模型均构建在Gemini多模态框架上，共享包含图像、文本及传感器数据的训练资源。数据采集覆盖ALOHA机械臂、Franka双臂系统及Apollo人形机器人等多类型平台，涉及数千种操作场景。为提升泛化性，团队还融入了网络公开的多媒体资源，并利用Gemini模型生成详尽标注。

关键技术突破

创新的动作迁移机制(MT)解决了传统模型需专机专训的痛点。通过建立统一动作表征，实现跨平台零样本迁移，比如让Apollo人形机器人直接应用ALOHA习得的开抽屉技能，无需额外训练。

安全控制体系

研发团队构建了多层次安全保障：上层设置智能决策防护，底层部署避碰子系统，同时推出升级版ASIMOV安全测评体系。新的评测标准增加了边缘场景覆盖和视频评估模式。

开发生态现状

目前Gemini Robotics-ER 1.5开放API调用接口，执行层模型则面向特定合作伙伴开放。技术白皮书详细披露了基于TPUv4/v5p/v6e硬件和JAX框架的训练方案。

行业发展趋势

这类跨平台技术正成为行业标准。值得关注的是，宇树科技最新开源的UnifoLM-WMA-0模型虽架构不同，但同样具备多端适配能力。Gemini Robotics系列展示的类人环境适应力，正在推动机器人通用化发展形成产业共识。

来源：https://www.itbear.com.cn/html/2025-09/969622.html

上一篇微信新增图片"搜一搜"功能，一键获取信息购物 下一篇理想i6发布：鲨鱼灵感设计打造动感车身线条

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-06-30

多点触控技术实际应用案例分享

多点触控技术借助电容或光学感应实现多指同时识别，重塑了移动设备交互、创意设计、教育协作及零售公共服务等场景，未来将与增强现实、智能家居等技术深度融合，使人机交互更自然高效。

科技数码 · 2026-06-30

MultiTouch多点触控全面教程指南：从入门到实际使用

多点触控技术使屏幕同时识别多指操作，涉及传感、坐标追踪和手势识别。基础手势如双指缩放、旋转及多指滑动提升效率。在创意软件中实现画布控制与参数调节，游戏带来沉浸式操控。保持屏幕清洁、用指腹触碰可优化体验。

科技数码 · 2026-06-30

Lily Camera无人机空中拍摄真实应用案例与心得分享

LilyCamera是一款无需遥控器的抛飞式自拍无人机，通过视觉与GPS追踪实现自动跟拍，瞄准运动与旅行场景。但因技术、供应链和资金问题未能量产。其概念推动了行业跟拍功能发展，强调用户体验简化与工程务实的平衡。

科技数码 · 2026-06-30

Lily相机使用中常见问题解决方法

使用中遇到开不了机、连不上或画质模糊等问题，可先充满电、重启设备、检查镜头及App版本。续航下降可调整高耗电设置，充不进电需用原装配件并清理接口。定期更新固件与应用能解决多数故障，官方支持与用户论坛可获取进一步帮助。

科技数码 · 2026-06-30

Lily Camera从入门到实际使用的完整详细教程指南

LilyCamera是一款抛飞即用的自动跟拍相机，通过计算机视觉与GPS追踪技术，配合腕带追踪器实现无需遥控器的极简操作。其理念影响了后续消费级无人机和运动相机的视觉跟踪系统发展。适用于跑步、骑行等动态场景，充分体现了对用户使用场景的深刻洞察。