英伟达Jim Fan年度复盘：Vibe Coding大火，机器人领域如何破局？

首页

热心网友

转载

2025-12-29

英伟达机器人业务负责人、GEAR实验室联合负责人Jim Fan近期分享了他对当前机器人领域发展的冷静观察。他指出，目前整个机器人行业仍处于相对混乱的阶段，甚至连技术发展的主流方向都尚未明确，存在走偏的可能性。

知名科技评论人AK近日也在社交媒体上发布推文，其观点引发了行业媒体的广泛讨论。AK认为，像Vibe Coding这类技术的发展速度令人震惊，其进步之快甚至让他本人也感到焦虑。他进一步表示，如果过去一个月没有紧跟技术发展节奏，那么对软件行业的认知可能已经过时了。

展望2025年，机器人领域的发展图景或许会更趋复杂。英伟达机器人业务负责人、GEAR实验室联合负责人Jim Fan再次表达了他的审慎态度。他强调，机器人领域目前仍处于混沌状态，即便是那些看似明确的发展路径，也未必就是正确的方向。

Jim Fan最近分享了他对机器人领域现状的深度思考，这是他基于2025年的行业观察总结出的三点核心教训。

1. 硬件虽领先于软件，但可靠性问题严重拖累迭代速度

我们已经见证了诸如Optimus, e-Atlas, Figure, Neo, G1等机器人所展现出的精湛工程技艺。

然而现状是，机器人“身体”的物理能力已经超越了其“大脑”的指挥能力。我们虽然在应用最顶尖的AI技术，但并未能将这些前沿硬件的全部潜力充分释放出来。

更为现实的是，照料和维护这些机器人往往需要一整支专业的运营团队。

机器人不像人类，无法在磕碰损伤后自我愈合。过热、电机损坏、离奇的固件问题等故障每天都在困扰着我们。这些错误通常是不可逆的，也是不可原谅的。

Jim Fan不禁感叹：在此过程中，唯一能随着规模增长而同步增加的，恐怕只有研发人员的耐心了。

2. 评测基准(Benchmark)在机器人领域仍是一场灾难

在大型语言模型（LLM）领域，普通从业者通常认为MMLU和SWE-Bench等评测标准是常识。但到了机器人领域？先别急着下结论。

在这里，业界几乎没有对任何事项达成普遍共识：无论是硬件平台的选择、任务本身的定义、评分标准的确立、所使用的仿真器，还是现实世界测试环境的搭建。

每个人都倾向于为每一个新发布的成果临时定义一个基准测试，然后宣称自己达到了SOTA（当前最佳水平）。这就像是从一百次重复试验中，精心挑选出看起来最漂亮的那一次演示。

Jim Fan呼吁：到2026年，我们必须做得更好，停止将科学研究的可复现性和严谨纪律视为次要因素。

3. 基于视觉语言模型(VLM)的VLA路线“感觉不对”

VLA（视觉-语言-动作）模型长期以来一直是构建机器人“大脑”的主流方法。其配方看似简单：取一个预训练好的VLM（视觉语言模型）作为核心，再在上面嫁接一个动作输出模块。

但仔细想想，VLM主要是为应对“视觉问答”这类评测任务而高度优化的模型。

这便引出了两个关键问题：

1. VLM中的绝大多数参数是为服务于语言和知识理解而设，而非为物理世界交互服务的；2. 视觉编码器为了进行高层语义理解（如问答），会主动调整并丢弃大量底层图像细节。

然而对于需要灵巧操作的机器人来说，这些微小的视觉细节恰恰至关重要。

Jim Fan认为，没有理由相信VLA模型的性能会随着VLM参数规模的增加而线性扩展。这种基于VLM的预训练路线可能存在错位。

相比之下，视觉世界模型（Video World Model）似乎是更适合机器人的预训练目标。Jim Fan表示，他个人正将研究重心押注于此。

质疑与回应

针对Jim Fan的这些观点，网友Stewart Alsop提出了尖锐的质疑：

如果视频世界模型是更好的预训练目标，那么为什么像Helix、GR00T N1和π0这些已真正交付成果的模型，依然构建在VLM的骨架之上？

此外，世界模型的方法目前大多只用于策略评估和合成数据，而非直接的运动控制。

另外，既然硬件瓶颈限制了迭代速度，难道这不正说明在解决机器人数据匮乏问题之前，任何预训练路线都面临同样的限制吗？

Jim Fan回应道：

它们都是2025年的模型，我们期待2026年出现下一代更强大的模型。

我个人认为，2026年的行业风向标还要看谷歌。DeepMind显然还在酝酿大招，他们在8月份已经展示过强大的世界模型Genie 3，而Genie 4或许真能让机器人拥有在现实世界连续执行复杂任务的“大脑”。

来源:https://www.51cto.com/article/833020.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：开源软件供应链：从技术到商业的安全风险演变下一篇：2026零售变革：智能体、数据与劳动力重塑行业格局

相关攻略

2026年Hermes Agent功能详解与应用场景全指南

HermesAgent是一款开源自主AI智能体框架，定位为可持久运行、自我进化的“数字员工”。它以任务完成为导向，通过四层架构处理信息、操作文件、执行终端命令及自动化浏览器，支持六种部署方式，并通过统一网关接入微信等多平台。其关键特性在于能从任务经验中自动提炼并复用技能，实现持续进化，越用越。

热心网友

05.18

具身智能两大世界第一揭秘行业巨头探寻其真实身份

近期，世界模型领域动态频频，竞争日趋白热化。李飞飞教授创立的具身智能公司 World Labs 高调发布了「Spark 2 0」模型；几乎同时，阿里巴巴也推出了自家的世界模型「快乐生蚝」。此外，Physical Intelligence 公司发布了新模型 π 0 7，重点强调了其在未见任务上的组合

热心网友

05.18

豆包机器人亮相马拉松引热议抽象设计被调侃全身是腿

近日，2026北京亦庄机器人半程马拉松赛事现场，一款造型独特的机器人意外成为焦点，在网络上引发了广泛讨论。这款被网友昵称为“豆脚”的机器人，以其极具辨识度的外观和有趣的行走姿态，迅速走红。 “豆脚”机器人的创意来源于抖音平台的虚拟IP“豆包”。其创作者、抖音博主“同济子豪兄”基于高擎动力的小派机器人

热心网友

05.18

对话王潜：一个月后机器人将进入家庭接单服务

“跑马拉松的机器人和我们，完全是两个领域。我们和做语言模型的公司，距离反而更近。” 就在不久前，一场机器人马拉松吸引了无数目光。那些拥有刀锋般双足的机器人，跑出了超越人类的速度。然而，在自变量科技CEO王潜看来，这更多是硬件能力的展示，而真正的战场，在于“大脑”。 “硬件在中国，从来都不是壁垒。今天

热心网友

05.18

业界动态

Figure机器人全天候直播演示惊艳表现与质疑声并存

FigureAI三台人形机器人在物流仓库进行了超40小时全自主分拣直播，处理数千件包裹并自主充电交接。直播旨在回应对其实用性的质疑，展示其在工业场景中的稳定性与操作能力。尽管其自适应抓取与异常处理表现突出，完全自主性仍存争议。目前国内外多家公司已在物流领域部署类似机器人。

热心网友

05.18

热门推荐

游戏攻略

《Zero Parades: For Dead Spies》游戏评分与媒体评价汇总

《Zero Parades: For Dead Spies》的媒体评测已经解禁，结果相当亮眼。这款被许多人视为《极乐迪斯科》精神续作的作品，在OpenCritic上拿到了86分的媒体均分，在Metacritic上也有83分。游戏将于5月21日正式登陆PC平台，看来2026年的必玩叙事RPG名单上，又

热心网友

05.18