智源大会深度探讨具身智能与机器人未来几年发展前景

时间：2026-06-15 11:42

未来两三年是具身智能从实验室走向规模化商用的关键窗口期，后训练环节让机器人自主干活成为核心。经验数据规模化扩容、视觉语言模型改进将催生原生基础模型飞跃，对应全球约40%GDP体量。

具身智能和具身机器人，这个赛道最近的热度是肉眼可见地高。但热闹归热闹，未来几年的路到底怎么走，规模化商用到底能走到哪一步，才是真正值得琢磨的问题。

在刚刚过去的2026年北京智源大会上，几位长期在一线奋战、既有学术背景又有产业实操经验的嘉宾，给出了相当务实的判断。他们的共识很明确：未来两三年，是具身智能和具身机器人从实验室走向规模化商用的关键窗口期，一些真正意义上的原生基础模型，很可能就在这个阶段涌现。

北京银河通用机器人公司的创始人兼CTO、北京大学研究员王鹤，发言直奔主题。在他看来，未来两三年间，最值得关注的技术进展，是“后训练”环节——也就是训练完基础模型之后，如何快速部署到具体场景里。王鹤特别强调，这个环节的技术进步，核心目标是“让机器人能自主干活”，而不是卖那些只会跑跳、动作全凭预编程的人形机器人。他认为，真正能自主干活的机器人市场，增速可能会远超预期，整个行业应该把资源往这个方向集中。

上海创智学院副教授、智元机器人首席科学家罗剑岚，同样判断市场正在起步阶段。他直言，未来两三年甚至再往后一点，一个真实的具身机器人市场是有可能出现的——哪怕规模只有一千台、一万台，只要不是零，就说明方向走通了，就有前景。当然，他也提醒，长期来看，具身机器人的发展不过是“万&里长征刚走完第一步”，很多根本性的科学问题，还悬在那里等着解决。

千寻智能联合创始人兼首席科学家、清华大学交叉信息研究院助理教授高阳的看法更偏向模型侧。他认为，未来一两年内，具身基础模型会有一次大的飞跃，而这次飞跃最直接的结果，就是应用成本大幅下降，从而催生一个真正的繁荣期。

北京大学长聘副教授、BeingBeyond创始人卢宗青的判断则更为系统。他指出，目前市面上的具身视觉语言模型表现并不理想——无论是对视频还是图片的理解，都存在明显短板。原因很简单：现有模型并没有在真实的交互数据和环境中训练过。他的预判是，未来两三年，随着训练环境的变化，具身基础模型将迎来大幅进步，很可能以一种统一的方式，同时解决视觉、语言及其他模态信息的理解问题，以及物理世界的交互问题。

上海交通大学助理教授穆尧，把目光聚焦在了数据这个老生常谈但又绕不开的环节。他表示，未来一两年他最期待的是“经验数据的规模化扩容”。目前来看，这个领域还一直没有出现大规模放量的态势。但他相信，一旦经验数据真正实现规模化扩容，就有可能催生出超越人类水平的智能。

最后，它石智航联合创始人兼首席科学家丁文超，抛出了一个更宏大也更具挑战性的问题：未来三五年，有这么多的数据、这么多的基础模型，具身的原生基础模型到底能不能真正涌现出来？他给出的分析角度很实在——如果视觉、语言、动作三种模态能够充分融合，形成一个比较理想的具身智能体，那么它对应的将是全球大约40%的GDP体量。面对如此巨大的市场诱惑，具身原生基础模型的加速涌现，几乎是一个必然。

原标题：《具身智能和具身机器人未来几年的发展前景如何？2026智源大会头脑激荡》

来源：https://www.163.com/dy/article/KVDRG95N055040N3.html

发展前景