首页 游戏 软件 资讯 排行榜 专题
首页
AI
阿里达摩院开源具身大模型,治愈机器人转身遗忘难题

阿里达摩院开源具身大模型,治愈机器人转身遗忘难题

热心网友
72
转载
2026-02-10

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

你斥巨资买回家的全能家务机器人,正在执行“把药片拿给奶奶”的任务。

它在大脑里推理得有条有理:“奶奶在沙发上,药在茶几,我要先去茶几那……”

结果站在茶几前的它,对着上面的半瓶可乐陷入了沉思。

短暂的停顿之后,机械臂伸出,抓起了遥控器。

恭喜你!你家的具身机器人翻车了。

其实,“一旦被扔进物理世界做任务,智商立刻欠费”是具身智能机器人当下的尴尬现状。

因为缺乏对三维物理空间的感知,模型无法像人类一样建立空间坐标系,无法记住刚刚转身后背对着的物体,也无法判断目标是否仍然存在于空间中。

这种“脑子学会了,手跟不上”的现象,本质上是因为现有的大模型大多是“缸中之脑”,它们只见过二维的图片和文本,从未真正理解过物理世界的深度与连续性。

现在,阿里达摩院出手了。

今天,达摩院开源了RynnBrain具身大脑基础模型,从2B到30B,全系列共计7个。

这是业界首个拥有时空记忆的具身大脑基础模型,其最大的特点是给具身机器人装上了一个能理解“时”与“空”的大脑:它不仅能看懂现在的画面,还能记住过去的轨迹,甚至预判未来的动作。

在20项具身Benchmark上,RynnBrain全面超越了英伟达的Cosmos-reason2和谷歌的Gemini Robotics ER 1.5等顶尖模型,轻松实现16个SOTA。



达摩院这次算是开了个好头。

技术探索一旦有了苗头,就不怕等不来雪球效应,到了全能家务机器人真正能进咱家门的时候……应该就不会翻车了吧?

RynnBrain,首个拥有时空记忆的具身大脑基础模型

RynnBrain的核心优势可以用“小而美”形容。

RynnBrain-30B-A3B作为首个MoE架构的具身基础模型,展现了极致的效率美学:

仅需3B的推理激活参数,性能却超越了72B规模的Pelican-VL(当前规模最大的具身基础模型)。

对于机器人这种对端侧算力、功耗极其敏感的设备来说,激活参数越小,意味着响应速度越快,硬件成本越低,落地的可能性就越大。



达摩院表示,RynnBrain是在Qwen3-VL的基础上进行训练。

为了解决大模型训练慢、成本高的问题,达摩院团队在RynnBrain中使用了自研的RynnScale架构。

这套架构对Dense模型和MoE模型都进行了深度的训练速度优化,使得在同等计算资源下,训练速度直接提升至200%。

所以RynnBrain不仅跑得快,迭代进化的速度也比别人快,单位时间内可完成更多实验轮次。



当然,模型好不好,数据是关键。

为了训练这个大脑,达摩院准备了超过2000万对的高质量语料。这些数据经过了精心的设计和清洗。

首先,团队复用了自研Video-Llama 3视频大模型的通用多模态训练数据,并融合了LLaVA-OV-SI、LLaVA-Video等开源视频问答数据,打好了底座。

其次,为了增强具身认知,他们引入了物体认知、空间认知和计数相关的数据。

这里有一个很有意思的细节:团队自己生成了100万对“自我为中心”的OCR问答数据。

为什么要强调“自我为中心”?

因为机器人眼中看到的世界是随着移动不断晃动的画面,是近大远小的透视。

加入OCR数据能让机器人看懂药瓶上的标签、门牌上的数字,对解决实际任务很有帮助。



在输入输出端,RynnBrain也做到了极致的灵活。

输入端,它可以接受任意分辨率的图片、多图和视频输入。

无论是高清的摄像头画面,还是模糊的监控截图,它都能处理——这满足了用户在不同场景、不同硬件条件下的视觉输入需求。

输出端,它有很强的多模态输出能力。

RynnBrain可以输出区域、轨迹、点集、夹爪位姿、文本等多种具身相关的模态。

它不仅能告诉你“那个苹果在桌子上”,还能直接告诉机械臂“把爪子移动到坐标(x,y,z),以30度的角度抓取”,为后续导航、规划与操作任务提供统一的认知接口。

这些设计共同构成了RynnBrain作为“具身大脑”的基本形态。

有时空记忆,懂物理空间推理,拓展性良好

回到我们开头假设的场景,一个问题摆在眼前:为什么现有的VLM(视觉语言模型)在做具身大脑时经常翻车?

核心原因是它们缺乏对物理世界的深刻理解。

它们能识别图片里的猫,但不知道这只猫在三维空间里的位置,更不知道当你转身后,家里的小猫还在不在猫窝里(此处很难不发出喵喵叫的声音.mp3)。



达摩院具身智能实验室的相关研究人员告诉量子位,之所以把RynnBrain定位为“具身基础模型”,是因为它针对性地提出了三个相互耦合的关键能力点。

第一,它拥有了“时空记忆”。

传统的模型往往是“健忘”的,处理视频时也是一帧一帧地看,看完了就忘。

而RynnBrain能够在其完整的历史记忆中定位物体、目标区域,甚至预测运动轨迹。

这就赋予了机器人一种“全局时空回溯能力”。

想象一下,机器人在厨房里忙活。它先在水槽边洗了菜,然后转身去冰箱拿肉。在普通模型眼里,转身的那一刻,水槽和菜就“消失”了。

但对于RynnBrain来说,它的大脑里构建了一个涵盖空间、位置、事件、轨迹的多维度表征。

它清楚地记得水槽在身后的哪个方位,刚才洗好的菜放在了水槽的左边还是右边。

这种能力对于长程任务至关重要。

比如“把药拿给奶奶”这个任务,中间可能被打断,可能需要绕过障碍物。

RynnBrain拥有时空记忆,所以任务中途哪怕发生插曲,也都还能准确地找回之前的任务断点,继续执行。

第二,它掌握了“物理空间推理”。

RynnBrain采用了一种全新的“文本与空间定位交错”的推理策略。

推理过程中,模型不仅生成语言判断,还会同步给出对应的空间指向信息。

它的推理过程是这样的:“首先走向[桌子](对应视频帧中的区域坐标),然后伸出手对准[苹果](对应物体的边界框),避开旁边的[水杯](对应障碍物的点集)……”

这种推理方式,就像是人类在指挥别人干活时,一边说话一边用手指指点点,具身模型理解指令时就更简单、更轻松。

推理与定位被强制绑定,推理结果天然受到物理世界约束,能够大幅降低具身任务中常见的幻觉问题。

在具体实现上,达摩院围绕计数、物体定位、操作点定位、区域定位和轨迹预测等任务构建了系统化的数据与评测流程。

尤其在计数任务中,强调“先定位再计数”,显著提升了复杂场景下的稳定性。

第三,它展现了良好的可拓展性。

RynnBrain不仅仅是一个好用的模型,更是一个强大的基座。

达摩院团队在RynnBrain基础模型上,微调了视觉语言导航和精准操作规划模型,结果令人惊喜。

在导航任务中,他们使用了SOTA模型StreamVLN的训练数据对RynnBrain进行微调。在没有任何架构改进的情况下,RynnBrain-Nav的导航成功率比StreamVLN直接提高了2%-3%。如果把RynnBrain作为基础模型,利用相同数据训练,能让微调出的导航模型能力提升5%。



在操作规划任务中,仅使用几百条数据微调后,RynnBrain-Plan-30B(A3B)就在域内和域外的任务上全面超越了Gemini 3 Pro。



咱就是说,RynnBrain在预训练阶段打下的底子确实非常厚实。

从模型开源到生态补齐,达摩院系统性修复具身认知断层

具身智能发展至今,仍面临数字世界(二维、离散)与物理世界(三维、高熵)之间的巨大断层。

为了跨越这个断层,业界目前主要在探索两条路径。

一是从通用VLM演化,优势是泛化强,劣势是操作精度弱。二是从动作策略(VLA)切入,优势是执行准,劣势是数据稀缺、换场即废。

达摩院团队透露,他们从第一性原理、泛化性角度以及工程化实践三个维度出发,深入思考后,倾向于采用“大小脑分层架构”。

以RynnBrain为代表的“大脑”负责长程规划、场景理解与时空记忆;执行层“小脑”则专注电机控制与动作执行。

这一架构在理论上更有利于泛化,在工程上也更便于模块化迭代。

这套架构的加持下,面对“把3个面包装到2个盘子里”这种任务,拥有长程规划和空间规划能力的具身机器人就有自己的机智解法。

虽然项目作者直言两种路线目前尚未收敛,也难言好坏优劣之分,但RynnBrain的出现,首次为这种分层架构提供了可直接落地的大脑层实现。

说到这儿,大家可以问那个问题了:开源不?

开,而且是全方面开。



此次达摩院不仅开源了RynnBrain模型,还配套开放了完整的推理训练代码、以及包含22项细粒度指标的全新评测基准RynnBrain-Bench。

该测试涵盖物体认知、空间认知、物体定位及具身点预测四大维度,侧重考察模型对视频序列的理解与时空定位能力。



通过开源这一大脑底座,开发者能直接在公认的基础设施上进行二次开发,将精力转向硬件优化或垂直场景应用。

这里想就两个点展开说几句。

一来,“通过RynnBrain补齐大脑的物理常识,再通过开源把这套常识变成行业的公共基础设施”这个动作,让达摩院“想做具身生态的建设者”这事儿藏不住了。

二来,此次开源RynnBrain,发布RynnBrain-Bench等一系列动作,降低了困扰行业的三大门槛,意义深远。

第一道是研发门槛,告别重复造轮子。

以往每家公司都需自行训练模型让机器人理解“左边”或“障碍物”,现在RynnBrain将这些物理常识打包成公共基础设施,随拿随用。

第二道是系统门槛,解决认知状态不共享的顽疾。

在RynnBrain的统一表征下,导航、规划与操作模块对物理世界的理解达成一致,信息的无损流转极大地提升了系统整体效率。

第三道是协作门槛。

RynnBrain-Bench提供了一把统一的标尺,让不同团队能在相同的参照系下评估模型能力,驱动行业良性竞争。



跳出模型本身来看,达摩院在具身智能这边,路线已经相对清晰了。

用最简单易懂的话说,他们在赌。

赌具身智能的未来不是一家独大,而是百花齐放;赌通用的物理世界认知,是所有机器人走向实用的必经之路。

毕竟具身智能最终拼的,不是参数规模或Demo视觉效果。

咱们期待的是机器人有朝一日能丝滑可靠地推开通往物理世界的大门。

现在,这扇通往真实世界的大门已经被RynnBrain推开了一条缝。剩下的,就看这个被激活的生态,能在这条路上跑出怎样的惊喜了。

GitHub:
https://github.com/alibaba-damo-academy/RynnBrain
抱抱脸:
https://huggingface.co/collections/Alibaba-DAMO-Academy/rynnbrain
项目主页:
https://alibaba-damo-academy.github.io/RynnBrain.github.io/

来源:https://www.163.com/dy/article/KLDCQSGU0511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

全球具身智能开发者大会深圳落幕,首秀带来三大变革
科技数码
全球具身智能开发者大会深圳落幕,首秀带来三大变革

来源:科技日报科技日报记者 罗云鹏3月30日,全球首届具身智能开发者大会暨“具亮计划”黑客松・大湾区巅峰赛在广东省深圳市落幕。大会共吸引全国顶尖高校、科研院所及高新企业上百支队伍报名参赛,最终20支

热心网友
04.01
标准先行:解读新华网科技观察,如何推动具身智能产业化
科技数码
标准先行:解读新华网科技观察,如何推动具身智能产业化

  新华网北京3月31日电 题:标准先行,助推具身智能产业化  新华网 朱家齐  2026中关村论坛年会举办期间,多款具身智能机器人集中亮相,精准穿针、柔性抓取、协同歌舞、实景作业,让公众直观感受到

热心网友
04.01
别卷工业机器人了,具备智能的柔性抓取才是未来
科技数码
别卷工业机器人了,具备智能的柔性抓取才是未来

科技帮助人类,而非代替者。青心意创想做的,是让雪宝这样大家深爱的角色,以具身智能的形态走进真实生活,在人们感到孤独或空落的时刻,带来一点真实的抚慰。文|江流编辑|王小坤不久前的英伟达GTC 2026

热心网友
04.01
深圳首届具身智能开发者大会落幕,定义行业新坐标
科技数码
深圳首届具身智能开发者大会落幕,定义行业新坐标

3 月 30 日,由深圳市人工智能产业办公室指导,自变量机器人、深圳市人工智能行业协会与广东省具身智能训练场联合主办的全球首届具身智能开发者大会(EAIDC 2026)暨「具亮计划」黑客松・大湾区巅

热心网友
03.31
智元机器人专利公布:具身模型测试评测新方法
科技数码
智元机器人专利公布:具身模型测试评测新方法

企查查APP显示,近日,智元机器人关联公司智元创新(上海)科技股份有限公司“用于具身模型的测评方法、系统、设备、介质及程序产品”专利公布。企查查专利摘要显示,该测评方法包括获取任务描述信息;将任务描

热心网友
03.31

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化
游戏资讯
《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化

《全面战争:中世纪3》:经典延续,如何平衡怀旧与创新? 近期,《全面战争:中世纪3》的项目负责人帕维尔·沃伊斯坦然指出,要打造一款真正优秀的续作,绝不能仅仅依赖对前作模式的简单复刻。这一观点引人深思——尽管《中世纪2:全面战争》至今仍在策略游戏爱好者心中占据着经典地位,但开发团队此次显然决心跳出“照

热心网友
04.02
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀
科技数码
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀

雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战

热心网友
04.02
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验
科技数码
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验

借力AWE2026“一展双区”,MOVA双区协同、震撼登场 备受瞩目的科技盛会——2026年中国家电及消费电子博览会(AWE),于3月12日至15日在上海盛大举办。本届AWE展会首次创新采用“一展双区”的展览模式,主会场位于上海新国际博览中心,分会场则设于上海东方枢纽国际商务合作区,两大展区高效联动

热心网友
04.02
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情
游戏攻略
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情

冰结师技能全解析 踏入2026年,《地下城与勇士》中的冰结师职业,其技能体系已构建得更为成熟与强大。无论是在副本中高效清理海量怪物,还是在决斗场与高手玩家周旋,这个职业都能凭借其独特的冰霜艺术掌控战局。刷图时,酷寒的范围法术可瞬间清屏;而在PVP竞技中,一套将冻结控制与瞬间爆发完美衔接的连招,往往让

热心网友
04.02
iPhone 18 Pro设计挤牙膏了 继续用前代模具
科技数码
iPhone 18 Pro设计挤牙膏了 继续用前代模具

iPhone 18 Pro系列模具不变,屏幕形态将与iPhone 17 Pro保持一致 备受期待的屏下Face ID组件小型化设计与灵动岛区域缩窄方案,预计将被推迟至后续迭代机型中正式应用。 近期,关于iPhone 18 Pro系列的技术传闻持续引发行业关注,尤其在显示与解锁设计领域传言甚多。多方消

热心网友
04.02