游乐游手机版
首页/web3.0/文章详情

谷歌机器人大脑又进化了:成功率飙3倍,还能看表干活、保护自己

时间:2026-04-16 15:35
Google DeepMind 重磅升级:Gemini Robotics ER 1 6 如何重塑机器人未来? 在人工智能浪潮席卷全球的今天,让机器人从实验室走向千家万户与现代化工厂,仅能“听懂”指令已远远不够。真正的突破在于,机器人必须能“看懂”并深刻理解我们身处的、复杂且动态变化的物理世界。近日,

Google DeepMind 重磅升级:Gemini Robotics ER 1.6 如何重塑机器人未来?

在人工智能浪潮席卷全球的今天,让机器人从实验室走向千家万户与现代化工厂,仅能“听懂”指令已远远不够。真正的突破在于,机器人必须能“看懂”并深刻理解我们身处的、复杂且动态变化的物理世界。近日,Google DeepMind 正式发布了其最新的机器人大脑——Gemini Robotics ER 1.6 模型,标志着具身智能(Embodied AI)向实用化迈出了关键一步。

适合国内用的虚拟币交易所

Gemini Robotics ER 1.6 模型示意图

这一全新模型将机器人的三维空间感知、多视角解析与工业仪表读取精度提升至前所未有的高度。它不仅赋予了机器人精准的“指认”与“读表”能力,更在物理操作的安全性与自主决策合规性上设立了新标杆,为下一代智能机器人的大规模部署扫清了核心障碍。

空间感知革命:从“模糊指认”到“精准交互”的基石

跨越数字智能与物理动作之间的“鸿沟”,是机器人技术面临的根本挑战。Gemini Robotics ER 1.6 专为复杂的“具身推理”而设计,其核心在于能将高级思维转化为可执行的机械步骤。当遇到认知难题时,它能动态调用外部工具,如 Google Search 获取实时信息,或整合 VLA(视觉-语言-动作)等模块,实现闭环决策。

与上一代 Gemini Robotics ER 1.5 及通用大模型 Gemini 3.0 Flash 相比,新版本在空间与物理推理的准确性上实现了质的飞跃

机器人空间指认能力对比示意图

“指认”这一人类看似简单的动作,对机器人而言却是高阶空间推理的综合体现。它背后涉及极度精准的物体检测、数量清点以及庞杂的空间关系逻辑。例如,在杂乱零件盒中找出最小螺丝钉,系统需扫描所有物体,计算相对体积并全局排序;规划移动轨迹时,则需在三维空间中构思完整路径并确定最佳抓取点。

新模型将精准指认作为解决复杂任务的“垫脚石”。通过连续指认来清点物品、标记关键特征,并启动后台数学模块,将目标尺寸和距离的估算误差降至极低。在“寻找维修工具”的测试场景中,面对一堆杂乱五金件,Gemini Robotics ER 1.6 能一眼精准识别出2把锤子、1把剪刀、1把刷子及6把相互遮挡的钳子。更智能的是,当指令目标(如某品牌电钻)不存在时,它能保持“视觉克制”,绝不胡乱猜测,而旧版模型则常出现漏检、误数或坐标偏差等问题。

机器人识别杂乱工具场景

多视角协同与成功判定:赋予机器人自主行动的“眼睛”与“大脑”

对自主机器人而言,知道何时“停手”与知道如何“动手”同等重要。“成功判定”是其自主行动的核心引擎,需要在毫秒级时间内判断子任务是否完成,以决定是调整姿态还是执行下一步。

现实环境充满挑战:光线变化、物体遮挡、指令模糊。为此,机器人需融合光学感知、逻辑推理与人类常识。现代机器人通常配备多摄像头(如全局俯视镜头与机械臂微距镜头),其“大脑”必须将不同视角的二维画面实时融合成连贯的三维世界模型

Gemini Robotics ER 1.6 大幅提升了多视角联合推理能力。它能同时处理多路高帧率视频流,理清画面间的三维空间映射关系。即使光线变化或被遮挡,机器人仍能对目标坐标“心中有数”。以“将蓝色钢笔放入黑色笔筒”为例,系统综合俯视与腕部镜头信息,在笔尖越过筒边并落底瞬间,精准下达“释放”与“任务完成”指令。

机器人多视角协同完成任务示意图

工业级应用突破:精准“读表”解锁智能巡检新时代

将抽象推理与现实常识结合以解决工业难题,是新模型的强项。读取老旧工业仪表盘便是其标志性能力,这源于复杂设施巡检的真实需求。Google DeepMind 与知名机器人公司波士顿动力(Boston Dynamics)的深度合作,正聚焦于此。

在化工厂或老旧车间中,遍布着温度计、压力表、液位计等仪器,需全天候监控以防安全风险。波士顿动力的四足机器狗 Spot 可自主巡逻拍摄仪表状态,而 Gemini Robotics ER 1.6 则让其真正“看懂”仪表。

机器人读取工业仪表盘示意图

无论是沾尘的机械压力表、倾斜的液位计还是带干扰的数字屏,系统均能准确读取。这并非易事:机器人需识别纤细指针朝向、液面高度、表盘刻度,并理解其几何与数学关系。例如,读取液位计时,它能修正镜头与玻璃折射导致的视觉畸变;面对多指针精密仪表,它能按正确数量级拼接读数。

其高精度的秘诀在于底层全面启用了“智能体视觉”(Agentic Vision)技术,将多模态视觉推理与代码执行能力深度融合。遇到看不清的表盘,它会像经验丰富的工匠:先生成代码控制相机局部放大,看清刻度;再通过指认与计算,确定指针在刻度间的精确位置;最后调用工业常识库,将像素数据“翻译”为具体压力或温度值。

Agentic Vision 技术原理图解

效果显著:在结合了 Agentic Vision 的仪表读数任务中,Gemini Robotics ER 1.6 成功率高达93%,性能相比前代提升了3倍,为工业自动化与预测性维护提供了可靠的技术基础。

安全第一:深植于基因的物理约束与合规保障

安全是机器人融入人类环境的生命线。谷歌团队强调,Gemini Robotics ER 1.6 是他们迄今打造的“最安全”的机器人大脑。在对抗性测试中,它展现出极高的安全合规性,严格遵守物理法则与人类安全准则。

机器人在行动前会进行安全预判:面对带有腐蚀警告标签的瓶子,它会检索规则,禁止接触;面对实心铁锭,它会视觉估算体积与重量,若超机械臂负载上限则绝不抓取。为实现这一点,研发团队基于海量真实工伤报告数据,训练模型在复杂指令与动态视频中敏锐识别安全隐患。

测试结果令人印象深刻:在安全关键测试中,新模型全面超越 Gemini 3.0 Flash 基准。其对文本指令中潜在隐患的识别准确率提升6%,对动态视频中如地面漏水、高空坠物等物理隐患的识别准确率更提升10%

机器人安全合规性测试数据对比

结语:具身智能的黎明与未来展望

目前,开发者已可通过 Gemini API 与 Google AI Studio 获取并使用 Gemini Robotics ER 1.6。它所带来的前所未有的三维空间感知、严丝合缝的安全红线以及精准的工业视觉能力,正推动具身智能从概念走向落地。

从精准指认到工业读表,从多视角协同到安全约束,Gemini Robotics ER 1.6 不仅是一次技术迭代,更是机器人理解并安全交互物理世界能力的一次范式升级。随着 Web3 与元宇宙概念对数字与物理世界融合的持续探索,此类先进的具身AI技术,将为未来去中心化自治组织(DAO)管理的智能工厂、元宇宙中的实体交互界面乃至 DeFi 世界的物理资产验证,奠定坚实的技术基础。能“看懂”、会“思考”、且绝对“安全”的下一代机器人,其黎明已然到来。

来源:https://www.528btc.com/news/116382421.html
上一篇Ontology是什么?创始人是谁?Ontology的发展目标是什么? 下一篇币安Binance交易所官网最新入口 币安官方APP最新版v8.15.0安卓下载
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
dYdX布局RWA是明智之选,对ATOM影响几何
web3.0 · 2026-07-03

dYdX布局RWA是明智之选,对ATOM影响几何

dYdX因面临Hyperliquid等对手竞争及DeFi下滑,选择与Robinhood合作转向RWA赛道,是理性权衡。此举对ATOM影响有限,因dYdXChain为主权链,价值积累极少归ATOM,且迁移时社区未出资。侧面印证拥有分发能力的团队需自有底层平台,Cosmos现专注于银行代币化存款方案。

全链网:周五干预日元预期高涨 加密市场承压
web3.0 · 2026-07-03

全链网:周五干预日元预期高涨 加密市场承压

市场预期日本官方周五可能干预日元,但分析认为单靠干预难以扭转疲软态势。美元持续强势及日本股市上涨,促使海外投资者积极对冲贬值风险,干预效果有限,日元仍面临较大压力。

Dolphin POD币深度解析:工作原理、特点与价格预测
web3.0 · 2026-07-03

Dolphin POD币深度解析:工作原理、特点与价格预测

POD是Dolphin网络原生代币,集实用、治理和激励于一体,用于支付网络费用、参与质押和投票决策。工作原理包括链上费用结算、xPOD分层质押及生态奖励。短期价格区间0 30–0 35美元,中长期随算力增长和协议回购可能上行至0 40–0 46美元。

Origin币(LGNS)全面解析:运作、生态与风险分析
web3.0 · 2026-07-03

Origin币(LGNS)全面解析:运作、生态与风险分析

Origin币(LGNS)是基于Polygon网络的ERC-20代币,用于DeFi支付、激励和治理。当前价格约6 18美元,最大供应量1 66亿枚,但流通量和交易量接近零,流动性不足。项目于2023年8月上线,长期价值取决于生态采用度、代币经济设计和透明度。主要风险包括流动性风险、合约漏洞和监管不确定性。

波兰总统第三次否决加密货币法案 MiCA截止前再遇阻
web3.0 · 2026-07-03

波兰总统第三次否决加密货币法案 MiCA截止前再遇阻

波兰总统卡罗尔·纳沃茨基第三次否决加密货币法案,距欧盟MiCA过渡期结束仅数周。波兰成为欧盟唯一未转化该法案的国家。总统认为政府仅采纳其16项修改建议中的一项,草案与前两次雷同。总理图斯克严厉批评。7月1日后,未获MiCA许可的波兰加密服务商将失去为欧盟客户服务的法律资格。