英伟达Jim Fan年度复盘:Vibe Coding大火,机器人领域如何破局?
英伟达机器人业务负责人、GEAR实验室联合负责人Jim Fan近期分享了他对当前机器人领域发展的冷静观察。他指出,目前整个机器人行业仍处于相对混乱的阶段,甚至连技术发展的主流方向都尚未明确,存在走偏的可能性。
知名科技评论人AK近日也在社交媒体上发布推文,其观点引发了行业媒体的广泛讨论。AK认为,像Vibe Coding这类技术的发展速度令人震惊,其进步之快甚至让他本人也感到焦虑。他进一步表示,如果过去一个月没有紧跟技术发展节奏,那么对软件行业的认知可能已经过时了。
展望2025年,机器人领域的发展图景或许会更趋复杂。英伟达机器人业务负责人、GEAR实验室联合负责人Jim Fan再次表达了他的审慎态度。他强调,机器人领域目前仍处于混沌状态,即便是那些看似明确的发展路径,也未必就是正确的方向。

Jim Fan最近分享了他对机器人领域现状的深度思考,这是他基于2025年的行业观察总结出的三点核心教训。
1. 硬件虽领先于软件,但可靠性问题严重拖累迭代速度
我们已经见证了诸如Optimus, e-Atlas, Figure, Neo, G1等机器人所展现出的精湛工程技艺。
然而现状是,机器人“身体”的物理能力已经超越了其“大脑”的指挥能力。我们虽然在应用最顶尖的AI技术,但并未能将这些前沿硬件的全部潜力充分释放出来。
更为现实的是,照料和维护这些机器人往往需要一整支专业的运营团队。
机器人不像人类,无法在磕碰损伤后自我愈合。过热、电机损坏、离奇的固件问题等故障每天都在困扰着我们。这些错误通常是不可逆的,也是不可原谅的。
Jim Fan不禁感叹:在此过程中,唯一能随着规模增长而同步增加的,恐怕只有研发人员的耐心了。
2. 评测基准(Benchmark)在机器人领域仍是一场灾难
在大型语言模型(LLM)领域,普通从业者通常认为MMLU和SWE-Bench等评测标准是常识。但到了机器人领域?先别急着下结论。
在这里,业界几乎没有对任何事项达成普遍共识:无论是硬件平台的选择、任务本身的定义、评分标准的确立、所使用的仿真器,还是现实世界测试环境的搭建。
每个人都倾向于为每一个新发布的成果临时定义一个基准测试,然后宣称自己达到了SOTA(当前最佳水平)。这就像是从一百次重复试验中,精心挑选出看起来最漂亮的那一次演示。
Jim Fan呼吁:到2026年,我们必须做得更好,停止将科学研究的可复现性和严谨纪律视为次要因素。
3. 基于视觉语言模型(VLM)的VLA路线“感觉不对”
VLA(视觉-语言-动作)模型长期以来一直是构建机器人“大脑”的主流方法。其配方看似简单:取一个预训练好的VLM(视觉语言模型)作为核心,再在上面嫁接一个动作输出模块。
但仔细想想,VLM主要是为应对“视觉问答”这类评测任务而高度优化的模型。
这便引出了两个关键问题:
1. VLM中的绝大多数参数是为服务于语言和知识理解而设,而非为物理世界交互服务的;2. 视觉编码器为了进行高层语义理解(如问答),会主动调整并丢弃大量底层图像细节。
然而对于需要灵巧操作的机器人来说,这些微小的视觉细节恰恰至关重要。
Jim Fan认为,没有理由相信VLA模型的性能会随着VLM参数规模的增加而线性扩展。这种基于VLM的预训练路线可能存在错位。
相比之下,视觉世界模型(Video World Model)似乎是更适合机器人的预训练目标。Jim Fan表示,他个人正将研究重心押注于此。
质疑与回应
针对Jim Fan的这些观点,网友Stewart Alsop提出了尖锐的质疑:
如果视频世界模型是更好的预训练目标,那么为什么像Helix、GR00T N1和π0这些已真正交付成果的模型,依然构建在VLM的骨架之上?
此外,世界模型的方法目前大多只用于策略评估和合成数据,而非直接的运动控制。
另外,既然硬件瓶颈限制了迭代速度,难道这不正说明在解决机器人数据匮乏问题之前,任何预训练路线都面临同样的限制吗?
Jim Fan回应道:
它们都是2025年的模型,我们期待2026年出现下一代更强大的模型。
我个人认为,2026年的行业风向标还要看谷歌。DeepMind显然还在酝酿大招,他们在8月份已经展示过强大的世界模型Genie 3,而Genie 4或许真能让机器人拥有在现实世界连续执行复杂任务的“大脑”。
相关攻略
HermesAgent是一款开源自主AI智能体框架,定位为可持久运行、自我进化的“数字员工”。它以任务完成为导向,通过四层架构处理信息、操作文件、执行终端命令及自动化浏览器,支持六种部署方式,并通过统一网关接入微信等多平台。其关键特性在于能从任务经验中自动提炼并复用技能,实现持续进化,越用越。
近期,世界模型领域动态频频,竞争日趋白热化。 李飞飞教授创立的具身智能公司 World Labs 高调发布了「Spark 2 0」模型;几乎同时,阿里巴巴也推出了自家的世界模型「快乐生蚝」。此外,Physical Intelligence 公司发布了新模型 π 0 7,重点强调了其在未见任务上的组合
近日,2026北京亦庄机器人半程马拉松赛事现场,一款造型独特的机器人意外成为焦点,在网络上引发了广泛讨论。这款被网友昵称为“豆脚”的机器人,以其极具辨识度的外观和有趣的行走姿态,迅速走红。 “豆脚”机器人的创意来源于抖音平台的虚拟IP“豆包”。其创作者、抖音博主“同济子豪兄”基于高擎动力的小派机器人
“跑马拉松的机器人和我们,完全是两个领域。我们和做语言模型的公司,距离反而更近。” 就在不久前,一场机器人马拉松吸引了无数目光。那些拥有刀锋般双足的机器人,跑出了超越人类的速度。然而,在自变量科技CEO王潜看来,这更多是硬件能力的展示,而真正的战场,在于“大脑”。 “硬件在中国,从来都不是壁垒。今天
FigureAI三台人形机器人在物流仓库进行了超40小时全自主分拣直播,处理数千件包裹并自主充电交接。直播旨在回应对其实用性的质疑,展示其在工业场景中的稳定性与操作能力。尽管其自适应抓取与异常处理表现突出,完全自主性仍存争议。目前国内外多家公司已在物流领域部署类似机器人。
热门专题
热门推荐
《Zero Parades: For Dead Spies》的媒体评测已经解禁,结果相当亮眼。这款被许多人视为《极乐迪斯科》精神续作的作品,在OpenCritic上拿到了86分的媒体均分,在Metacritic上也有83分。游戏将于5月21日正式登陆PC平台,看来2026年的必玩叙事RPG名单上,又
目录 你是否也遇到过这些问题 处理效果 前置准备 超简单AI自动化解决方案 第1步:准备好你的原始数据 第2步:针对指定的文件下达指令 第3步:验收 还能解决这些同类问题 指令为什么这么有用? 更多场景直接抄作业 销售数据三级汇总 成本数据多级汇总 库存数据汇总 员工薪资汇总 常见问题答疑 核心价值
AI Agent 的发展,正迎来一个关键的转折点,从概念验证迈向真正的生产力交付。 想象一下,当一个 AI 智能体能够在无需人工介入的情况下,独立完成一个复杂项目的全流程,并将成功经验固化为可随时调用的“技能”——这是否标志着 AI 在职场中的角色,已经从辅助工具演变为自主的生产力单元? 随着 Op
彭博社的马克・古尔曼在最新报道中透露了一个有趣的发现:苹果为WWDC 26发布的宣传海报,其设计细节可能暗藏玄机,指向了即将在iOS 27中亮相的全新Siri交互界面。 根据古尔曼的分析,新版Siri的核心变化在于与灵动岛的深度融合。唤醒时,它将不再以传统的全屏或底部卡片形式出现,而是会以一个扩展的
GitHub 的 Star 数量还值得信赖吗?真相可能比你想象的更严峻。 开源社区中“购买 Star”的现象早已不是秘密,其便捷程度甚至超过点外卖,单价低廉且支持批量折扣。然而,卡内基梅隆大学(CMU)一项被 ICSE 2026 顶会收录的最新研究,首次系统性地揭示了这场“造假生意”的惊人规模:Gi





