近年来,人工智能与机器人无疑是科技领域最受瞩目的焦点,AI驱动更已成为行业共识。然而,最近宇树科技创始人王兴兴提出了一个颇为反直觉的观点:当前机器人的最大短板,恰恰在于AI大模型本身尚不足以支撑其发展。此言一出,不少人感到意外——大模型不是正发展得如火如荼吗?怎么反而成了瓶颈?

一、王兴兴:机器人的核心问题仍然出在AI模型?
在2025外滩大会的圆桌讨论中,王兴兴直言不讳:机器人的硬件与大脑存在严重脱节。硬件方面,他认为“用一两年都够用”,真正制约发展的,是AI大模型在多模态融合上的表现远未达标。纯语言模型或纯视频模型目前确实表现出色,但要把语言与图像有效融合,难度依旧不小。更令人担忧的是,目前还没有有效的方法将硬件真正利用起来——例如如何通过模型控制机器人的灵巧手,这类问题至今仍是挑战。
他打了个比方:AI在信息处理、文字与图像领域已是百花齐放,但到了让AI具体执行任务的领域,还是一片荒芜,只有寥寥几株小草。“爆发性增长的前夜尚未到来。”不过,王兴兴也给年轻人吃了一颗定心丸——他认为这个时代对年轻人十分友好,AI时代公平公正,大家完全可以借助模型自学编程。他甚至鼓励大家将AI视为一个全能型伙伴,而不仅仅是工具,要用更具前瞻性的认知去拥抱它。
实际上,持有类似观点的人不在少数。网上流传着一则段子,尤其能说明问题:“我理想中的AI,是帮我洗衣洗碗,好让我去玩艺术、搞创作;可现实中的AI,却跑去玩艺术搞创作,让我来洗衣洗碗。”这一句调侃,道出了许多人的困惑。

二、大模型到底“不够用”在哪里?
王兴兴的表态之所以能引发广泛共鸣,背后折射出整个行业正在面临的深层困境。大模型近年来发展迅猛,但在机器人领域,它的“不够用”具体体现在哪些方面?我们逐一剖析。
首先,大模型看似热闹,实则大多停留在逻辑推理的初级阶段。当前模型参数动辄千亿、万亿,但它们的“智能”更多建立在对海量数据的统计与模式匹配上。写文章、回答问题、翻译文本,这些任务都表现出色。然而,一旦涉及隐晦的隐喻、双关语,或需要文化背景才能理解的表达,模型往往会露出破绽。更关键的是,每次训练都需要海量数据与天价算力,成本高、周期长,不确定性也大。因此,尽管大模型风头正劲,离真正的成熟仍有不小距离。

其次,硬件进步迅速,但大模型的思维方式与人类相去甚远。如今的机器人传感器、执行器、机械结构都已相当成熟——工业机器人能完成复杂装配,服务机器人能自主导航避障。但问题在于,硬件的提升并不能自动带来智能的飞跃。人类处理事情依靠直觉、经验与创造力,许多事对我们来说是“本能”——比如一眼看出物体的用途,或瞬间理解场景的氛围。而大模型要完成相同任务,需要大量标注数据反复训练,本质仍基于统计规律,缺乏对事物内在机理的理解。这种思维方式的差异,导致大模型在面对真实世界的复杂场景时常常力不从心。
第三,大模型目前仅能替代基础工作,遇到高难度任务便暴露短板。从实际应用来看,客服问答、格式化文稿生成、预设程序的装配检测——这些规则明确、步骤重复的工作,大模型确实能够胜任。但一旦任务复杂度提升,比如需要多步骤推理、跨领域知识整合,或动态适应环境变化,大模型的表现就会迅速下降。举一个简单例子:让家庭服务机器人完成“播放音乐”“开灯”这类指令很容易,但如果说“帮我找找昨天收到的快递,可能放在门口鞋柜或者沙发底下”——机器人就需要同时理解时间、物品、空间位置,还要具备视觉搜索、物体识别、路径规划和交互反馈能力。对当前大模型而言,难度堪比登天。

第四,具身智能要真正构建一个能干活的大脑,道路还很漫长。具身智能的目标是让机器人像人一样在真实世界中自主完成各种任务。目前市场上已有大量工具化机器人——扫地、搬运、焊接,都很实用。但要实现像人类那样的“多面手”,困难依然巨大。以做家务为例:一个合格的家庭主妇不仅要会打扫、洗衣、做饭,还得懂得家人的习惯与喜好,遇到突发情况能灵活应对。这就要求机器人的大模型具备全面的生活常识、情感理解与社交沟通能力。目前,有些机器人甚至学会了扭秧歌这样的表演性动作,但这距离成为真正的家庭得力助手,中间还差着好几个数量级的训练与实践积累。
第五,未来到底该怎么走?简单粗暴地堆参数已经没有意义。一味扩大模型参数规模,带来的不仅是训练成本飙升、推理速度下降,还有可解释性越来越差。真正该做的,是把大模型的进化方向对准具身智能的实际落地。一方面,优化训练算法,用更少的数据与算力获得更优性能;另一方面,加强软硬件的深度融合,让机器人的传感器数据实时反馈给大模型,帮助它更准确地感知环境、理解任务,从而做出更可靠的决策。

至此,王兴兴提出的问题答案已经清晰:大模型的“不够用”,并非数量不足,而是智能深度与实用性尚需质的飞跃。这才是大模型下一步真正应该攻克的方向。
