具身智能和具身机器人,这个赛道最近的热度是肉眼可见地高。但热闹归热闹,未来几年的路到底怎么走,规模化商用到底能走到哪一步,才是真正值得琢磨的问题。
在刚刚过去的2026年北京智源大会上,几位长期在一线奋战、既有学术背景又有产业实操经验的嘉宾,给出了相当务实的判断。他们的共识很明确:未来两三年,是具身智能和具身机器人从实验室走向规模化商用的关键窗口期,一些真正意义上的原生基础模型,很可能就在这个阶段涌现。
北京银河通用机器人公司的创始人兼CTO、北京大学研究员王鹤,发言直奔主题。在他看来,未来两三年间,最值得关注的技术进展,是“后训练”环节——也就是训练完基础模型之后,如何快速部署到具体场景里。王鹤特别强调,这个环节的技术进步,核心目标是“让机器人能自主干活”,而不是卖那些只会跑跳、动作全凭预编程的人形机器人。他认为,真正能自主干活的机器人市场,增速可能会远超预期,整个行业应该把资源往这个方向集中。
上海创智学院副教授、智元机器人首席科学家罗剑岚,同样判断市场正在起步阶段。他直言,未来两三年甚至再往后一点,一个真实的具身机器人市场是有可能出现的——哪怕规模只有一千台、一万台,只要不是零,就说明方向走通了,就有前景。当然,他也提醒,长期来看,具身机器人的发展不过是“万&里长征刚走完第一步”,很多根本性的科学问题,还悬在那里等着解决。
千寻智能联合创始人兼首席科学家、清华大学交叉信息研究院助理教授高阳的看法更偏向模型侧。他认为,未来一两年内,具身基础模型会有一次大的飞跃,而这次飞跃最直接的结果,就是应用成本大幅下降,从而催生一个真正的繁荣期。
北京大学长聘副教授、BeingBeyond创始人卢宗青的判断则更为系统。他指出,目前市面上的具身视觉语言模型表现并不理想——无论是对视频还是图片的理解,都存在明显短板。原因很简单:现有模型并没有在真实的交互数据和环境中训练过。他的预判是,未来两三年,随着训练环境的变化,具身基础模型将迎来大幅进步,很可能以一种统一的方式,同时解决视觉、语言及其他模态信息的理解问题,以及物理世界的交互问题。
上海交通大学助理教授穆尧,把目光聚焦在了数据这个老生常谈但又绕不开的环节。他表示,未来一两年他最期待的是“经验数据的规模化扩容”。目前来看,这个领域还一直没有出现大规模放量的态势。但他相信,一旦经验数据真正实现规模化扩容,就有可能催生出超越人类水平的智能。
最后,它石智航联合创始人兼首席科学家丁文超,抛出了一个更宏大也更具挑战性的问题:未来三五年,有这么多的数据、这么多的基础模型,具身的原生基础模型到底能不能真正涌现出来?他给出的分析角度很实在——如果视觉、语言、动作三种模态能够充分融合,形成一个比较理想的具身智能体,那么它对应的将是全球大约40%的GDP体量。面对如此巨大的市场诱惑,具身原生基础模型的加速涌现,几乎是一个必然。
原标题:《具身智能和具身机器人未来几年的发展前景如何?2026智源大会头脑激荡》
