谷歌Gemini Robotics 1.5发布:跨本体具身推理处理复杂任务
谷歌DeepMind最新发布了突破性机器人模型Gemini Robotics 1.5系列,该系统通过创新的思维链机制和协同架构设计,大幅提升了机器人在真实环境中的自主决策水平。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
双模型协作架构
该系列包含两大核心模型:Gemini Robotics 1.5负责精准执行,Gemini Robotics-ER 1.5专注战略规划,两者构成类似"小脑-大脑"的智能协同体系。
执行层的特点
作为执行主体,Gemini Robotics 1.5是目前最先进的视-言-动一体化模型。其独特优势在于具备具身思维能力:在执行指令前会先以自然语言生成详细的思考过程,将复杂任务分解为可操作的步骤链。比如面对"整理桌面"指令时,会自发规划"物品识别-抓取水杯-移至水槽"等具体动作顺序。这种分步处理模式赋予机器人出色的应变能力,当水杯意外掉落时能立即生成补抓指令。
规划层的突破
Gemini Robotics-ER 1.5在15项学术评测中刷新纪录,空间推理能力超越GPT-5等主流模型。它能有效融合多角度视觉信息,精准响应类似"指向左下方蓝杯"的具体指令,并能持续评估行动效果与目标的匹配程度。
技术实现细节
两大模型均构建在Gemini多模态框架上,共享包含图像、文本及传感器数据的训练资源。数据采集覆盖ALOHA机械臂、Franka双臂系统及Apollo人形机器人等多类型平台,涉及数千种操作场景。为提升泛化性,团队还融入了网络公开的多媒体资源,并利用Gemini模型生成详尽标注。
关键技术突破
创新的动作迁移机制(MT)解决了传统模型需专机专训的痛点。通过建立统一动作表征,实现跨平台零样本迁移,比如让Apollo人形机器人直接应用ALOHA习得的开抽屉技能,无需额外训练。
安全控制体系
研发团队构建了多层次安全保障:上层设置智能决策防护,底层部署避碰子系统,同时推出升级版ASIMOV安全测评体系。新的评测标准增加了边缘场景覆盖和视频评估模式。
开发生态现状
目前Gemini Robotics-ER 1.5开放API调用接口,执行层模型则面向特定合作伙伴开放。技术白皮书详细披露了基于TPUv4/v5p/v6e硬件和JAX框架的训练方案。
行业发展趋势
这类跨平台技术正成为行业标准。值得关注的是,宇树科技最新开源的UnifoLM-WMA-0模型虽架构不同,但同样具备多端适配能力。Gemini Robotics系列展示的类人环境适应力,正在推动机器人通用化发展形成产业共识。
热门专题
热门推荐
鲁大师软件管家可安全升级常用软件:一、启动后点击顶部“软件管家”选项卡自动扫描;二、在“可升级软件”列表点击绿色“升级”按钮确认安装;三、勾选多个软件后点“批量升级”按钮并发处理;
3月29日,北京已在全国率先启动智能网联新能源汽车商业保险产品开发应用。新产品基本沿用现有的新能源商业车险体系,按照“总体稳定、部分优化”的原则,主要为消费者和汽车企业关心的特定智驾场景、软硬件损失
预计苹果今年将发布两款新的 iPhone 应用,包括 Apple Business 应用和一款具备类似聊天机器人功能的 Siri 应用。借助 Apple Business 应用,使用全新 Apple
据 Axios 报道,苹果公司已聘请前谷歌副总裁 Lilian Rincon 担任人工智能产品营销副总裁。加入苹果之前, Rincon 曾任谷歌购物产品副总裁。在苹果, Rincon 将负责苹果所有
3月29日消息,谁能料到前段时间奥迪车主与雷军之间的那个打赌,竟然还有后续。这到底是咋回事?事情发生在3月25日,网友@单手开吉利 在雷军的微博评论区晒出了自己去年10月刚提的奥迪车,还当场立下一个





