最近,谷歌DeepMind正式推出了Gemini Robotics On-Device——这是业界首个能在机器人本地独立完成运行的视觉-语言-动作模型(Visual-Language-Action, VLA)。
这项技术的重要意义,远不止于发布一个模型那么简单;它标志着具身智能正从“云端”被拉回到“地面”。从此,机器人无需时刻依赖云计算,而是能够在本地自主决策与思考。对于整个产业而言,这一新窗口的开启,或许比我们预想的更具颠覆性。
少量演示即可快速学习,具备跨机器人形态泛化能力
坦白说,我一直认为,机器人真正实现“本地独立干活”,才是AI落地最醒目的信号之一。过去,具身智能面临两大难以绕开的障碍:一是重度依赖云计算,一旦断网便几近“瘫痪”;二是模型体积庞大,机器人有限的算力根本难以承载。Gemini Robotics On-Device这次成功跨越了这两个门槛。
据官方透露,该模型能够在算力受限的机器人终端上本地运行,同时保持了极高的通用性和任务泛化能力。更直白地讲,它不再依赖于数据网络,这对于那些对延迟敏感的工业场景而言,堪称一次质的飞跃。

从DeepMind公开的演示视频来看,机器人在完全无网络连接的状态下,顺利完成了诸如“将魔方放入包装袋”、“拉开包包拉链”等任务。从感知、语义理解,到空间推理、高精度执行——每个环节都衔接流畅,表现相当稳定。

研究团队指出,该模型继承了Gemini Robotics的通用性与灵活性,能够立即接手各类复杂的双手操作任务。更为关键的是,仅需50到100次演示,它就能掌握一项新技能。这一点至关重要——要知道,目前大多数机器人完成一个任务往往需要成百上千次训练。换句话说,谷歌这次将“学习成本”降低了一个数量级,显著提升了模型的适用范围与部署灵活性。
值得注意的是,尽管该模型最初是针对特定机器人训练的,但它能够泛化到不同的机器人形态上——无论是双臂机器人还是人形机器人均可适配。在演示中可以看到,它能在双臂Franka机器人上执行通用指令,处理从未见过的物体与环境;无论是折叠衣物这类需要灵巧度的任务,还是对精确度要求极高的工业皮带组装,都能从容应对。
还有一点值得一提:谷歌首次开放了VLA模型的微调功能。这意味着工程师或机器人企业可以利用自有数据对模型进行定制化训练,从而优化其在特定任务、场景或硬件平台上的表现。与此同时,谷歌还配套推出了Gemini Robotics SDK,方便开发者进行模型评估与快速调整。这几步棋走下来,谷歌的意图已十分清晰——他们希望为机器人领域打造一个开放、通用且易于开发的平台,就像当年安卓系统重塑智能手机行业一样。
具身智能正迈入“端侧时代”
“这标志着机器人终于可以真正走进真实环境了。”一位具身智能领域的专家对蓝鲸科技记者如此评价。过去,受限于带宽和算力,许多机器人的AI能力只能停留在演示阶段。而这一次,通用模型实实在在地运行在硬件终端上,即便不联网也能完成复杂操作。
具身智能一直被视为AGI通往现实世界的桥梁,而本地部署的VLA模型,正是这座桥梁实现通车的核心环节。同样地,本地VLA模型让机器人更适用于家庭、医疗、教育等对数据隐私、实时响应、安全稳定要求极高的场景,这些核心挑战有望得到系统性解决。
事实上,过去几年,大语言模型的“端侧部署”已成为一个重要趋势。从最初高度依赖云端算力,到如今手机、平板等边缘设备也能本地运行,模型的压缩优化、推理加速与硬件协同一直在稳步推进。
同样的演进路径,如今正在具身智能领域复制。VLA模型作为具身智能的核心架构,本质上让机器人从多模态信息中理解任务并付诸行动。此前,这类模型往往离不开云端资源的支撑,网络带宽、算力功耗、实时性等瓶颈,让它在真实复杂环境中难以高效运转。
谷歌此次发布的Gemini Robotics On-Device,相当于正式宣告具身智能进入了类似语言模型的“端侧时代”。它在有限算力下稳定运行,通用性与迁移能力表现不俗,还能快速学习并适配不同的任务和机器人形态。可以预见,这次发布很可能引发行业的连锁反应。随着AI算力和模型架构的持续演进,“边缘智能”正从传统的物联网,走向以具身智能为代表的更高级阶段。
本地VLA模型,正成为下一个必争之地。目前各类机器人在本体结构、自由度和传感器配置上差异巨大,统一的软件架构难以实现。一位关注机器人领域的投资人分析称:“一旦硬件标准趋于统一,就像智能手机生态中USB接口、键盘、屏幕这些通用组件形成规范一样,算法的标准化与本地部署将大幅提速。”在他看来,谷歌正在构建的“机器人安卓生态”,预示着更标准化、更易开发和普及的具身智能时代,或许会比我们预想的更早到来。
不过,话说回来,再好的模型,在实际落地中也并非一蹴而就。机器人硬件的多样性与复杂性仍是突出问题——市场上的机器人硬件五花八门,即便强大的通用模型,也需要针对每一种具体硬件做细致的适配与调优。此外,要让模型真正落地到海量、多样化的实际应用场景中,数据收集与标注的成本可能高得惊人,尤其是在那些需要专业操作知识与设备的工业或特定服务场景。
更关键的是,机器人需要在极其复杂、动态且不可预测的真实世界中保持鲁棒性。光照变化、物体遮挡、非结构化的杂乱环境,以及人机交互中的细微差异,都会对模型的实时感知与决策能力构成严峻考验。确保机器人在各种实际场景下都能维持高水平的稳定性和安全性,这恐怕是未来具身智能发展必须持续攻克的核心难题。
