首页 游戏 软件 资讯 排行榜 专题
首页
AI
具身智能新方向:超越宇树,聚焦未来3大核心工作

具身智能新方向:超越宇树,聚焦未来3大核心工作

热心网友
86
转载
2026-02-18

不要只盯着宇树翻跟头了,这些工作才是具身智能的春晚

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

邮箱|guohaiwei@pingwest.com

当十几台G1在舞台“下腰”打醉拳的时候,你会觉得宇树好像真的已经把表演这件事情卷到头了。

真的很难想象,羊年还能有什么比马年更能震撼人心的表演。哪怕是让机器人在舞台上跳芭蕾,难道就能给普通人比今天更强的视觉震撼了吗?恐怕也很难说。

如果说今天具身存在一个“结构性”的矛盾,大概有就是“日益增长的姿态控制能力与硬件水平”和“落地场景不平衡、不充分”的发展之间的矛盾。前者带来了人民对具身日益增长的期待,而后者则让人民感到困惑。

对于很多人来说,机器人的“技能树”好像点错了——它明明该帮我们家务,却代替我们诗词歌赋、载歌载舞。

而这种技能树错配背后,其实有第二个“结构性”的矛盾:即“日益增长的AI智能诉求”与“智能泛化能力不平衡、不充分”的发展之间的矛盾。前者让行业的所有从业者都对AGI的明天充满光明信心,而后者则让从业者感到现金流的贫穷。

而所谓一切场景与智能的问题,其实本质都是数据与智能的关系。

在具身领域尤其如此。

而具身的数据问题又可以分成两种:

一个是数据规模带来智能难以scaling;一个是现有智能情况下,样本的学习和泛化能力。

多位具身行业资深人士曾对硅星人表示,具身数据问题属于“可解”的,但解决方案本质大概率都会是“线性”的,可能会随着投入的增加获得更多的加速,但“指数型”爆炸的可能性不高。

究其原因,如果想要通过仿真数据实现高度的通用泛化,生产超高质量仿真数据背后的难度,可能反而高于具身大脑泛化的难度,有点“鸡生蛋、蛋生鸡”悖论的味道。而互联网数据理论上可行,但不够精准,“画马难画骨”,对齐难度大。

目前行业里普遍构想的一个技术循环是:

数据采集→数据训练模型→模型进入场景→场景生成数据→更好的数据→更强的模型→更多的场景和数据

这样慢慢可以把数据转起来,等数据多了,具身就可以进入GPT时刻了,尽管实际过程可能很缓慢。但即便如此,很多模型依然会卡死在第三步,导致数据飞轮迟迟无法转起来。导致一些实际的技术循环其实是:

数据采集→数据训练模型→泛化能力卡死在sim to real上→等待更多的数据

不过最近两个月来,开始陆续有更多的团队加入少样本甚至零样本的泛化能力的路线探索上来,通过不同的路径去解决的智能突破和泛化能力的问题,堪比具身的马年学术春晚:

χ0是香港科技大学团队在2月10日正式发布的技术成果。

此前这个团队在12月份的时候曾经拿χ0做了24个小时的“家务直播”,主要是抓取、叠、挂衣服,展现了很强大的柔性物体处理能力。

根据后来发布的技术报告显示,χ0可以在很少样本、低算力的情况下做出很好的泛化能力。而且根据他们自己的说法,相比于π0.5,χ0的成功率能提升250%。

正如如这篇论文的标题,“通过化解分布不一致性,实现资源受限下的鲁棒操控”。

χ0展现的是柔性物体能力,但其实想要解决的是模型学习的鲁棒性难题。而它的解决方案其实就是通过解决在不同模块的数据分布对齐问题。

比如,过去训练出来的模型内参数分布和环境反馈的分布是不同的,就会导致智能的鲁棒性受损。而他们就希望在各个环节上找到这些分布差异,然后对齐它——他们最后选择从训练分布、模型分布以及部署分布三个角度出发,从而让流程的各个不同阶段都能实现高效对齐。

https://arxiv.org/pdf/2602.09021

LingBot-VA是蚂蚁灵波在1月30日官宣的技术成果,最新将它称为具身世界模型,首创了自回归视频-动作世界建模框架。也是第一个将世界模型直接控制真机操作的研究成果。

而在此之前,蚂蚁灵波还发布了LingBot-World开源视频生成世界模型,做到了将近 10 分钟的无损稳定生成。

与χ0一样,LingBot-VA展现了更好的鲁棒性:

在 LIBERO 和 RoboTwin 等主流基准测试中,分别以 98.5% 和 92%+ 的成功率大幅领先π0.5等现有模型。在针对具身控制中常见的“长时漂移”难题,复杂任务成功率超过 98%。

同时也能实现较少样本下的泛化能力:

一个场景仅需 30~50 条演示数据即可完成适配。

但与χ0不同的是,LingBot-VA团队一开始就选择了一个在语义层面具备较高鲁棒性的自回归世界模型策略。他们的逻辑有点像在模型内置了一个预测未来的大脑。本质就是用一段视频去预测下一段视频的状态。而当模型知道下一段视频流中的状态时,便可以反推并解码成具体的执行动作。

这样一来,由于视频与动作之间存在明确的时间和逻辑关系,便自然就构成了很明确的物理现实世界中的因果关系。所以这个技术成果被命名为:“面向机器人控制的因果世界建模”。

这套方案绕过了VLA常出现的表征纠缠问题,将动作、视频预测、场景执行情况,直接形成了相互映射的关系。而且在视频生成模型中,天然会具备一定的世界模型知识,因此获得了更好的执行效果。

https://github.com/Robbyant/lingbot-va/blob/main/LingBot_VA_paper.pdf

DreamZero是英伟达团队在2月份发布的技术论文,定位世界动作模型。

DreamZero比LingBot-VA晚发了十天左右,但思路上与LingBot-VA同为世界模型落地真机的路线,因此在一些技术思路上也很相似。而且Lingbo-VAt搭配LingBot-World一起发布,而与DreamZero同期发布的还有DreamDojo的通用机器人世界模型。

这两个团队在技术审美和产品发布的逻辑节奏上如此相似,可以说目前在世界模型的探索上,分别都是东西半球的先行者,也相当程度上确认了这条技术路线的可行性。

他们都强调世界模型在运动控制中的作用,强调通过世界模型预测而非简单堆砌数据的重要性,以及受益于世界模型的技术路线,DreamZero也呈现了较好的泛化性。

最新表示,DreamZero甚至在一些模型从来没有见过的场景中,DreamZero也已经可以实现0样本泛化。而为了着重强调这一点,他们甚至把自己的技术报告直接叫做,“世界动作模型就是0样本泛化的策略”

最核心区别在于,LingBot采用了自回归为主干的策略,而DreamZero则采用了以扩散模型直接作为主干的策略。此外,作为各自模型未来的基础设施,DreamDojo的核心是闭源的,而LingBot-World则是完全开源的。

https://dreamzero0.github.io/

押注“非线性”增长的物理世界

过去的具身技术路线正在受到越来越多的挑战。

一方面,如本文开头所说,LLM成功的路径依赖让具身产业长期患有数据饥渴症。而数据规模短时间难以爆发式增长,就导致具身的智能缺乏像LLM那样指数级增长的手段;

另一方面,其实以VLA为代表的技术路线,本身也在面临更多的质疑。越来越多人开始质疑VLA是否可以很好的完成动作操控,是否有能力更好地泛化并突破Sim to real gap的魔咒。

而面对这种困局,不同的人想到的解决方案是不同的,也很难在短期达成共识。

以χ0这类研究更像是通过不断升级过去的架构能力,从而在原有的路径上解决问题;而LingBot-VA、DreamZero这样的产品,则是寻求一种革命性的范式创新。

今天一个行业内逐步清晰的共识是:如果具身大脑的能力要摆脱数据贫血和泛化瓶颈的地心引力,从而复刻LLM的传奇,那就必须有一些新的技术创新。要么,我们在数据层面上大幅突破;要么在架构上另辟蹊径。

而像VA、DreamZero这样的工作显然是后者,而他们能给我们的启事是:

如果要在具身复刻LLM的scaling law奇迹,它未必是要通过平移scaling law的方式实现的,也可能是借一个更好的架构来获得原本在LLM就已经具备的知识能力。

蚂蚁灵波首席科学家沈宇军在接受采访时表示:

LingBot-VA和LingBot-World的思考其实是“一套技术体系的不同侧重”,双方会耦合地非常深,底层的数据引擎、代码框架和优化方法,都高度共通。

所以,沈宇军的思路可能就是要绕过具身的scaling瓶颈,重新去审视和依托新的大模型能力,建设新的具身底层的智能基础设施。

从这个角度来说,蚂蚁灵波和英伟达可谓具身世界模型中“拓荒者”的角色,未来也不排除会有更多的像英伟达和蚂蚁这样的超级玩家加入。但随着中美AI进展生态的不同,未来英伟达会逐渐形成自己的生态,而蚂蚁灵波则会积极引领全球的开源世界模型生态。

但他们的目标都是一致的:

具身不一定就必须要按部就班,物理AI也值得一次爆炸式增长的尝试。

来源:https://tech.ifeng.com/c/8qqDGVcxCdf
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

亚马逊 2 月 26 日发布新一代 Alexa 生成式AI 服务,使用 Claude 模型
AI
亚马逊 2 月 26 日发布新一代 Alexa 生成式AI 服务,使用 Claude 模型

亚马逊按下“重启键”:下一代Alexa能否重夺AI语音王座? 科技圈又有新动静了。就在今天,亚马逊发出了人工智能主题活动的邀请函,时间定在2月26日。多方信源,包括路透社的报道均指向一个焦点:亚马逊计划在此次活动上,正式推出其下一代、基于生成式人工智能的Alexa服务。 话说回来,自2014年面世以

热心网友
04.28
派欧算力云 AI 云端一体化解决方案: 模型 API、Serverless、GPU 租赁
AI
派欧算力云 AI 云端一体化解决方案: 模型 API、Serverless、GPU 租赁

派欧算力云产品介绍 人工智能的浪潮正席卷各行各业,企业和开发者们面临一个共同的挑战:如何快速、经济且高效地获取AI算力,将创意迅速转化为市场产品?面对这一需求,一站式AI云服务平台——派欧算力云,提供了颇具吸引力的答案。本文将带你深入剖析派欧算力云的核心功能、独特优势以及应用路径,看它如何为企业的A

热心网友
04.27
京东开源图像模型JoyAI-Image-Edit,从平面修图升级为三维空间重塑
AI
京东开源图像模型JoyAI-Image-Edit,从平面修图升级为三维空间重塑

京东开源图像模型JoyAI-Image-Edit,从平面修图升级为三维空间重塑 4月7日,京东探索研究院正式宣布,开源自研的JoyAI-Image-Edit图像模型。这不仅是又一个开源工具,更标志着图像生成编辑技术的一次关键转向:从二维平面迈入了三维空间。 简单来说,这个模型被设计为业内首个将“空间

热心网友
04.15
Anthropic启动Project Glasswing计划,向业界提供 Claude Mythos模型1亿美元调用额度
AI
Anthropic启动Project Glasswing计划,向业界提供 Claude Mythos模型1亿美元调用额度

Anthropic启动Project Glasswing计划,集结科技巨头共筑软件安全防线 近日,人工智能公司Anthropic启动了一项名为“Project Glasswing”的新计划。这项计划的核心目标,是借助其尚未公开发布的Claude Mythos Preview模型,来加强全球关键软件基

热心网友
04.15
断层碾压Seedance 2.0:神秘“欢乐马”空降榜首,视频AI变天了
AI
断层碾压Seedance 2.0:神秘“欢乐马”空降榜首,视频AI变天了

就在 OpenAI 都停了 Sora,所有人以为 Seedance 2 0 要一统天下的时候,没想到不知哪里冒出来一匹马。 周二晚间,在知名 AI 评测分析平台 Artificial Analysis 上,一个代号为「HappyHorse-1 0」的神秘视频生成模型空降榜首,引发了 AI 社区热议。

热心网友
04.15

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

快剪辑SaaS版 : AI工具,创作中心
AI
快剪辑SaaS版 : AI工具,创作中心

需求人群 无论是需要打造品牌形象的企业,筹划宏大叙事的纪录片团队,还是灵感迸发的个人创作者,都能在这里找到得心应手的工具。它的适用面,覆盖了从专业到日常的广泛创作场景。 使用场景 想制作一部充满科技未来感、带有粒子地球特效的企业宣传片?用它。需要快速为夏装童装上新打造一个可爱又吸引眼球的优惠视频模板

热心网友
05.01
来画 : 集聚多项创作工具于一体
AI
来画 : 集聚多项创作工具于一体

需求人群 不论是企业团队还是个人创作者,只要有多媒体内容创作的需求,都可能成为它的用户。覆盖面其实相当广。 使用场景 对企业来说,最典型的莫过于制作口播视频。传统方式费时费力,现在借助数字人技术,能大幅压缩制作周期和成本,效率的提升是实实在在的。 个人用户则会偏爱它的在线图片设计功能。不需要掌握专业

热心网友
05.01
万彩微影 : 企业和自媒体营销必备软件,快速生成短视频
AI
万彩微影 : 企业和自媒体营销必备软件,快速生成短视频

需求人群 无论是想快速制作动画短视频的创作者,还是运营自媒体需要生成手绘、文字、图文或相册短视频的朋友,这套工具都能满足你的需求。 使用场景 它的应用场景非常明确:帮你高效解决企业宣传短视频的制作难题,轻松搞定微课视频,同时也是征战抖音、快手等平台的短视频制作利器。 产品特色 那么,它具体能做什么?

热心网友
05.01
Reply Muse : 个性化回复和不可抗拒的破冰船
AI
Reply Muse : 个性化回复和不可抗拒的破冰船

需求人群 如果你正在使用在线约会软件,或者经常需要通过文字进行社交互动,希望更高效、更得当地开启和推进对话,那么这类工具正是为你设计的。 使用场景 想象一下,在Tinder上匹配到心仪对象,却为第一句话绞尽脑汁。这时,一个智能工具能帮你生成独特的破冰语,轻松给人留下深刻的第一印象。 不止于此,在后续

热心网友
05.01
BgSub : 5 秒内消除或替换图像背景,无需上传图像
AI
BgSub : 5 秒内消除或替换图像背景,无需上传图像

需求人群 说到给图片换背景,那可是个磨人的活儿。自己动手抠图,费时费力不说,边缘还总处理不干净。好在现在有了 BgSub 这类工具,但凡工作中需要频繁处理图像、进行视觉设计,或者只是想给社交媒体发张精美图片的朋友,它都能帮你把大量时间省下来。效率的提升,是实实在在的。 产品特色 那么,这款工具到底强

热心网友
05.01