谷歌机器人大脑又进化了：成功率飙3倍，还能看表干活、保护自己

时间：2026-04-16 15:35

Google DeepMind 重磅升级：Gemini Robotics ER 1 6 如何重塑机器人未来？在人工智能浪潮席卷全球的今天，让机器人从实验室走向千家万户与现代化工厂，仅能“听懂”指令已远远不够。真正的突破在于，机器人必须能“看懂”并深刻理解我们身处的、复杂且动态变化的物理世界。近日，

Google DeepMind 重磅升级：Gemini Robotics ER 1.6 如何重塑机器人未来？

在人工智能浪潮席卷全球的今天，让机器人从实验室走向千家万户与现代化工厂，仅能“听懂”指令已远远不够。真正的突破在于，机器人必须能“看懂”并深刻理解我们身处的、复杂且动态变化的物理世界。近日，Google DeepMind 正式发布了其最新的机器人大脑——Gemini Robotics ER 1.6 模型，标志着具身智能（Embodied AI）向实用化迈出了关键一步。

适合国内用的虚拟币交易所

这一全新模型将机器人的三维空间感知、多视角解析与工业仪表读取精度提升至前所未有的高度。它不仅赋予了机器人精准的“指认”与“读表”能力，更在物理操作的安全性与自主决策合规性上设立了新标杆，为下一代智能机器人的大规模部署扫清了核心障碍。

空间感知革命：从“模糊指认”到“精准交互”的基石

跨越数字智能与物理动作之间的“鸿沟”，是机器人技术面临的根本挑战。Gemini Robotics ER 1.6 专为复杂的“具身推理”而设计，其核心在于能将高级思维转化为可执行的机械步骤。当遇到认知难题时，它能动态调用外部工具，如 Google Search 获取实时信息，或整合 VLA（视觉-语言-动作）等模块，实现闭环决策。

与上一代 Gemini Robotics ER 1.5 及通用大模型 Gemini 3.0 Flash 相比，新版本在空间与物理推理的准确性上实现了质的飞跃。

“指认”这一人类看似简单的动作，对机器人而言却是高阶空间推理的综合体现。它背后涉及极度精准的物体检测、数量清点以及庞杂的空间关系逻辑。例如，在杂乱零件盒中找出最小螺丝钉，系统需扫描所有物体，计算相对体积并全局排序；规划移动轨迹时，则需在三维空间中构思完整路径并确定最佳抓取点。

新模型将精准指认作为解决复杂任务的“垫脚石”。通过连续指认来清点物品、标记关键特征，并启动后台数学模块，将目标尺寸和距离的估算误差降至极低。在“寻找维修工具”的测试场景中，面对一堆杂乱五金件，Gemini Robotics ER 1.6 能一眼精准识别出2把锤子、1把剪刀、1把刷子及6把相互遮挡的钳子。更智能的是，当指令目标（如某品牌电钻）不存在时，它能保持“视觉克制”，绝不胡乱猜测，而旧版模型则常出现漏检、误数或坐标偏差等问题。

多视角协同与成功判定：赋予机器人自主行动的“眼睛”与“大脑”

对自主机器人而言，知道何时“停手”与知道如何“动手”同等重要。“成功判定”是其自主行动的核心引擎，需要在毫秒级时间内判断子任务是否完成，以决定是调整姿态还是执行下一步。

现实环境充满挑战：光线变化、物体遮挡、指令模糊。为此，机器人需融合光学感知、逻辑推理与人类常识。现代机器人通常配备多摄像头（如全局俯视镜头与机械臂微距镜头），其“大脑”必须将不同视角的二维画面实时融合成连贯的三维世界模型。

Gemini Robotics ER 1.6 大幅提升了多视角联合推理能力。它能同时处理多路高帧率视频流，理清画面间的三维空间映射关系。即使光线变化或被遮挡，机器人仍能对目标坐标“心中有数”。以“将蓝色钢笔放入黑色笔筒”为例，系统综合俯视与腕部镜头信息，在笔尖越过筒边并落底瞬间，精准下达“释放”与“任务完成”指令。

工业级应用突破：精准“读表”解锁智能巡检新时代

将抽象推理与现实常识结合以解决工业难题，是新模型的强项。读取老旧工业仪表盘便是其标志性能力，这源于复杂设施巡检的真实需求。Google DeepMind 与知名机器人公司波士顿动力（Boston Dynamics）的深度合作，正聚焦于此。

在化工厂或老旧车间中，遍布着温度计、压力表、液位计等仪器，需全天候监控以防安全风险。波士顿动力的四足机器狗 Spot 可自主巡逻拍摄仪表状态，而 Gemini Robotics ER 1.6 则让其真正“看懂”仪表。

无论是沾尘的机械压力表、倾斜的液位计还是带干扰的数字屏，系统均能准确读取。这并非易事：机器人需识别纤细指针朝向、液面高度、表盘刻度，并理解其几何与数学关系。例如，读取液位计时，它能修正镜头与玻璃折射导致的视觉畸变；面对多指针精密仪表，它能按正确数量级拼接读数。

其高精度的秘诀在于底层全面启用了“智能体视觉”（Agentic Vision）技术，将多模态视觉推理与代码执行能力深度融合。遇到看不清的表盘，它会像经验丰富的工匠：先生成代码控制相机局部放大，看清刻度；再通过指认与计算，确定指针在刻度间的精确位置；最后调用工业常识库，将像素数据“翻译”为具体压力或温度值。

效果显著：在结合了 Agentic Vision 的仪表读数任务中，Gemini Robotics ER 1.6 成功率高达93%，性能相比前代提升了3倍，为工业自动化与预测性维护提供了可靠的技术基础。

安全第一：深植于基因的物理约束与合规保障

安全是机器人融入人类环境的生命线。谷歌团队强调，Gemini Robotics ER 1.6 是他们迄今打造的“最安全”的机器人大脑。在对抗性测试中，它展现出极高的安全合规性，严格遵守物理法则与人类安全准则。

机器人在行动前会进行安全预判：面对带有腐蚀警告标签的瓶子，它会检索规则，禁止接触；面对实心铁锭，它会视觉估算体积与重量，若超机械臂负载上限则绝不抓取。为实现这一点，研发团队基于海量真实工伤报告数据，训练模型在复杂指令与动态视频中敏锐识别安全隐患。

测试结果令人印象深刻：在安全关键测试中，新模型全面超越 Gemini 3.0 Flash 基准。其对文本指令中潜在隐患的识别准确率提升6%，对动态视频中如地面漏水、高空坠物等物理隐患的识别准确率更提升10%。

结语：具身智能的黎明与未来展望

目前，开发者已可通过 Gemini API 与 Google AI Studio 获取并使用 Gemini Robotics ER 1.6。它所带来的前所未有的三维空间感知、严丝合缝的安全红线以及精准的工业视觉能力，正推动具身智能从概念走向落地。

从精准指认到工业读表，从多视角协同到安全约束，Gemini Robotics ER 1.6 不仅是一次技术迭代，更是机器人理解并安全交互物理世界能力的一次范式升级。随着 Web3 与元宇宙概念对数字与物理世界融合的持续探索，此类先进的具身AI技术，将为未来去中心化自治组织（DAO）管理的智能工厂、元宇宙中的实体交互界面乃至 DeFi 世界的物理资产验证，奠定坚实的技术基础。能“看懂”、会“思考”、且绝对“安全”的下一代机器人，其黎明已然到来。

来源：https://www.528btc.com/news/116382421.html

数字货币

上一篇Ontology是什么？创始人是谁？Ontology的发展目标是什么？ 下一篇币安Binance交易所官网最新入口币安官方APP最新版v8.15.0安卓下载

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

web3.0 · 2026-07-03

dYdX布局RWA是明智之选，对ATOM影响几何

dYdX因面临Hyperliquid等对手竞争及DeFi下滑，选择与Robinhood合作转向RWA赛道，是理性权衡。此举对ATOM影响有限，因dYdXChain为主权链，价值积累极少归ATOM，且迁移时社区未出资。侧面印证拥有分发能力的团队需自有底层平台，Cosmos现专注于银行代币化存款方案。

web3.0 · 2026-07-03

全链网：周五干预日元预期高涨加密市场承压

市场预期日本官方周五可能干预日元，但分析认为单靠干预难以扭转疲软态势。美元持续强势及日本股市上涨，促使海外投资者积极对冲贬值风险，干预效果有限，日元仍面临较大压力。

web3.0 · 2026-07-03

Dolphin POD币深度解析：工作原理、特点与价格预测

POD是Dolphin网络原生代币，集实用、治理和激励于一体，用于支付网络费用、参与质押和投票决策。工作原理包括链上费用结算、xPOD分层质押及生态奖励。短期价格区间0 30–0 35美元，中长期随算力增长和协议回购可能上行至0 40–0 46美元。

web3.0 · 2026-07-03

Origin币（LGNS）全面解析：运作、生态与风险分析

Origin币（LGNS）是基于Polygon网络的ERC-20代币，用于DeFi支付、激励和治理。当前价格约6 18美元，最大供应量1 66亿枚，但流通量和交易量接近零，流动性不足。项目于2023年8月上线，长期价值取决于生态采用度、代币经济设计和透明度。主要风险包括流动性风险、合约漏洞和监管不确定性。

web3.0 · 2026-07-03

波兰总统第三次否决加密货币法案 MiCA截止前再遇阻

波兰总统卡罗尔·纳沃茨基第三次否决加密货币法案，距欧盟MiCA过渡期结束仅数周。波兰成为欧盟唯一未转化该法案的国家。总统认为政府仅采纳其16项修改建议中的一项，草案与前两次雷同。总理图斯克严厉批评。7月1日后，未获MiCA许可的波兰加密服务商将失去为欧盟客户服务的法律资格。