谷歌Gemini Robotics 1.5发布:跨本体具身推理处理复杂任务
谷歌DeepMind最新发布了突破性机器人模型Gemini Robotics 1.5系列,该系统通过创新的思维链机制和协同架构设计,大幅提升了机器人在真实环境中的自主决策水平。
双模型协作架构
该系列包含两大核心模型:Gemini Robotics 1.5负责精准执行,Gemini Robotics-ER 1.5专注战略规划,两者构成类似"小脑-大脑"的智能协同体系。
执行层的特点
作为执行主体,Gemini Robotics 1.5是目前最先进的视-言-动一体化模型。其独特优势在于具备具身思维能力:在执行指令前会先以自然语言生成详细的思考过程,将复杂任务分解为可操作的步骤链。比如面对"整理桌面"指令时,会自发规划"物品识别-抓取水杯-移至水槽"等具体动作顺序。这种分步处理模式赋予机器人出色的应变能力,当水杯意外掉落时能立即生成补抓指令。
规划层的突破
Gemini Robotics-ER 1.5在15项学术评测中刷新纪录,空间推理能力超越GPT-5等主流模型。它能有效融合多角度视觉信息,精准响应类似"指向左下方蓝杯"的具体指令,并能持续评估行动效果与目标的匹配程度。
技术实现细节
两大模型均构建在Gemini多模态框架上,共享包含图像、文本及传感器数据的训练资源。数据采集覆盖ALOHA机械臂、Franka双臂系统及Apollo人形机器人等多类型平台,涉及数千种操作场景。为提升泛化性,团队还融入了网络公开的多媒体资源,并利用Gemini模型生成详尽标注。
关键技术突破
创新的动作迁移机制(MT)解决了传统模型需专机专训的痛点。通过建立统一动作表征,实现跨平台零样本迁移,比如让Apollo人形机器人直接应用ALOHA习得的开抽屉技能,无需额外训练。
安全控制体系
研发团队构建了多层次安全保障:上层设置智能决策防护,底层部署避碰子系统,同时推出升级版ASIMOV安全测评体系。新的评测标准增加了边缘场景覆盖和视频评估模式。
开发生态现状
目前Gemini Robotics-ER 1.5开放API调用接口,执行层模型则面向特定合作伙伴开放。技术白皮书详细披露了基于TPUv4/v5p/v6e硬件和JAX框架的训练方案。
行业发展趋势
这类跨平台技术正成为行业标准。值得关注的是,宇树科技最新开源的UnifoLM-WMA-0模型虽架构不同,但同样具备多端适配能力。Gemini Robotics系列展示的类人环境适应力,正在推动机器人通用化发展形成产业共识。
热门专题
热门推荐
钉钉文档官网 在探讨企业级协同办公解决方案时,钉钉文档无疑是备受瞩目的核心工具之一。作为阿里巴巴钉钉官方推出的旗舰级应用套件,它深度融合了在线文档编辑、智能表格、思维导图等多种高效创作工具。其核心优势在于与钉钉平台生态的无缝衔接,能够直接同步企业内部组织架构与通讯录,实现团队成员间的即时协作与信息流
在数字化转型浪潮中,高效、易用的数据分析工具已成为企业提升决策效率的关键。商汤科技推出的“办公小浣熊”智能助手,正是基于自研大语言模型打造的一款创新产品,旨在彻底降低数据分析的技术门槛。用户无需掌握编程知识或复杂操作,即可通过自然对话完成从数据查询、处理到可视化洞察的全流程,让数据价值触手可及。 办
在人工智能技术快速发展的今天,MiniMax作为一家专注于全栈自研的AI公司,正以其独特的技术路径和前瞻性的布局,在业界脱颖而出。公司致力于构建覆盖文本、图像、语音和视频的新一代多模态智能模型矩阵,这不仅体现了对核心底层技术自主权的深度掌控,也展现了对未来人机交互与内容生成形态的前瞻思考。 那么,M
ApolloCreditFund(ACRED)作为连接传统信贷与DeFi的桥梁,其价格受市场情绪、协议基本面及宏观环境影响。其价值逻辑根植于现实世界资产(RWA)的收益捕获与链上流动性释放。短期价格波动难以预测,但长期发展取决于信贷资产质量、协议安全性和市场采用度。投资者需关注其底层资产表现、代币经济模型及整个RWA赛道的发展趋势。
在数字化转型浪潮中,一套能够深度适配业务、彰显品牌特色的智能客服系统,已成为企业提升服务效率与用户体验的关键工具。然而,市场上许多解决方案往往模式固化,难以满足个性化需求。如何让AI客服不仅具备基础的自动化应答能力,更能承载独特的品牌文化与服务哲学?其核心在于系统是否支持深度的自定义与持续的AI训练





