首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
具身智能行业开源模型测评的必要性与关键价值

具身智能行业开源模型测评的必要性与关键价值

热心网友
11
转载
2026-01-08

文|定焦One

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

从2025年春晚上的表演出圈,到人形机器人马拉松,再到年底的量产落地和商业闭环,具身智能的航向正悄然转向。

尤其当具身智能进入产业落地期,机器人表演式的成功已不足以满足业界对其能力的期待。产业端如今更看重“机器人大脑”及其带来的泛化能力,因为真实世界并不存在完全标准化的场景。无论是在工业分拣、养老护理还是仓储物流等领域,机器人都需要自主且稳定地与真实物理世界交互。

——这恰恰需要强大的具身智能模型能力作为核心支撑。那么,在大规模应用浪潮到来之前,我们该如何科学评估具身智能模型这一“机器人大脑”的真实水准?

和大型语言模型一样,具身智能模型同样需要建立开放公正的评价体系,以测评为引擎推动行业进步。RoboChallenge正是全球首个大规模、多任务的真实机器人基准测试平台,旨在为VLA模型在机器人上的应用提供客观评估标准。

值得关注的是,具身智能模型测评和大型语言模型测评存在显著差异。大语言模型的测评多为“闭卷答题”,以静态数据输出与文本、图像指标为主,不涉及物理交互与连续动作执行。而具身模型的测评则更侧重“感知-决策-执行”的物理闭环,测评时需要预先公开任务,核心验证对象为视频动作序列和任务成功率,类似于“开卷考试+实操考核”。

因此,使用公开代码的开源具身智能模型参与测评,才是更货真价实、更有价值的。RoboChallenge最新发布的测评结果显示,自变量开源端到端具身智能基础模型wall-oss以46.43分超越pi0,总分排名第二,仅次于pi0.5。

Pi0、pi0.5背后的公司Physical Intelligence核心团队成员来自伯克利、斯坦福等高校和谷歌专家等。自变量机器人创始人王潜为南加州大学博士学位,是全球最早在神经网络中提出Attention机制的研究者之一;CTO王昊则主导开发国内首个多模态开源大模型“太乙”、百亿级大语言模型“燃灯”及千亿级模型“姜子牙”。

具体来看,wall-oss在叠洗碗巾、挂口袋杯、按按钮、浇盆栽、移物入盒及开瓶器进抽屉等多个单任务中排名第一。

排名前三名中,wall-oss是唯一一个国内开源具身基础模型。

开源模型将模型代码、训练数据乃至架构设计公开,让测评过程可全程复现,能够规避通过微调其他模型来“刷榜”的行为,可以更客观、真实地反映模型能力。这必将引导各个具身智能玩家回归技术本身,用技术能力构建自身的核心竞争力。

同时,开源模型有助于技术透明迭代,能够加速具身智能行业创新。开放协作的“集体智慧”,远比封闭开发更能应对真实世界的复杂性与随机性。

自变量自成立以来,就致力于树立开源的标杆,让每次开源都对行业产生价值。去年9月,wall-oss模型正式开源,预训练模型权重、训练代码、数据集接口以及详细部署文档全部公开,开发者可以在自己的机器人上直接跑通闭环流程。

自变量机器人联合创始人兼CTO王昊此前曾公开谈及自变量坚持开源的初心:“开源意味着我们可以站在巨人的肩膀上继续前进。我们可以基于已有成果做更多的改进,社区开发者的反馈也会帮助到开源的公司,开源公司可以从中吸取到经验,然后把这个技术路线思考得更加深入。一般的高校,或者一些小型的创业公司,他们可能没有能力去做基础模型,但是如果能够使用这些基础开源模型,他们就可以去做应用,把它用到各个方向,丰富整个生态,这也是非常重要的事情。”

在RoboChallenge发布测评结果之后,wall-oss提交的复现结果示例、微调代码也将在下周全部开源,让模型展现出的泛化能力、推理能力等有据可查。除了检验测试结果的真实性,开发者们也可以在平台上根据源代码和各个任务的微调代码,结合自己的数据完成复现微调。

这意味着,自变量提供的不仅仅是一个模型,而是一整套完整可复现的方案,这对具身智能基础模型的透明迭代和标准共建具有更深远的意义。

拥抱开源,是具身智能走向成熟的必经之路。只有把技术从封闭的实验室里解放出来,让更多人参与、验证、改进,才能真正突破单点创新的局限,具身智能才能真正从实验室走向真实世界。

来源:https://www.163.com/dy/article/KIOF17L805198R91.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

全球具身智能开发者大会深圳落幕,首秀带来三大变革
科技数码
全球具身智能开发者大会深圳落幕,首秀带来三大变革

来源:科技日报科技日报记者 罗云鹏3月30日,全球首届具身智能开发者大会暨“具亮计划”黑客松・大湾区巅峰赛在广东省深圳市落幕。大会共吸引全国顶尖高校、科研院所及高新企业上百支队伍报名参赛,最终20支

热心网友
04.01
标准先行:解读新华网科技观察,如何推动具身智能产业化
科技数码
标准先行:解读新华网科技观察,如何推动具身智能产业化

  新华网北京3月31日电 题:标准先行,助推具身智能产业化  新华网 朱家齐  2026中关村论坛年会举办期间,多款具身智能机器人集中亮相,精准穿针、柔性抓取、协同歌舞、实景作业,让公众直观感受到

热心网友
04.01
别卷工业机器人了,具备智能的柔性抓取才是未来
科技数码
别卷工业机器人了,具备智能的柔性抓取才是未来

科技帮助人类,而非代替者。青心意创想做的,是让雪宝这样大家深爱的角色,以具身智能的形态走进真实生活,在人们感到孤独或空落的时刻,带来一点真实的抚慰。文|江流编辑|王小坤不久前的英伟达GTC 2026

热心网友
04.01
深圳首届具身智能开发者大会落幕,定义行业新坐标
科技数码
深圳首届具身智能开发者大会落幕,定义行业新坐标

3 月 30 日,由深圳市人工智能产业办公室指导,自变量机器人、深圳市人工智能行业协会与广东省具身智能训练场联合主办的全球首届具身智能开发者大会(EAIDC 2026)暨「具亮计划」黑客松・大湾区巅

热心网友
03.31
智元机器人专利公布:具身模型测试评测新方法
科技数码
智元机器人专利公布:具身模型测试评测新方法

企查查APP显示,近日,智元机器人关联公司智元创新(上海)科技股份有限公司“用于具身模型的测评方法、系统、设备、介质及程序产品”专利公布。企查查专利摘要显示,该测评方法包括获取任务描述信息;将任务描

热心网友
03.31

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

洛克王国世界40级进阶无推图阵容打法
手机教程
洛克王国世界40级进阶无推图阵容打法

洛克王国世界40级进阶无推图阵容打法攻略 在《洛克王国世界》的成长之旅中,达到40级是一个关键的进阶门槛。许多玩家可能会发现自己并未刻意组建一支成型的推图队伍,面对这个挑战时有些无从下手。这篇攻略将为你详细解析一套无需专门推图阵容的通关思路,帮助你利用现有资源,轻松突破40级进阶关卡。 核心阵容搭配

热心网友
04.04
这城有良田主C红品宝玉词条选择逻辑
手机教程
这城有良田主C红品宝玉词条选择逻辑

这城有良田主C僚属红品宝玉词条搭配攻略 在《这城有良田》中,红品宝玉的词条选择,是决定你主C僚属最终伤害上限的核心环节。面对各式各样的属性词条,不少玩家会感到困惑:如何搭配才能最大程度激发核心输出的潜力?本文将为你系统解析主C位红品宝玉的挑选逻辑与进阶策略,助你在资源投入上实现收益最大化,显著提升队

热心网友
04.04
哔哩猫app适配手表设置
游戏攻略
哔哩猫app适配手表设置

哔哩猫手表版优化指南:适配小屏的关键设置 想在智能手表上流畅体验哔哩猫?直接安装手机版本,往往会遇到界面拥挤、操作不便的问题。其实,只需调整几个核心选项,就能让哔哩猫完美匹配手表的小屏幕,操作体验大幅提升。 1、DPI优化:精准调节显示密度 手表屏幕空间有限,默认的显示比例常常导致文字过大、布局浪费

热心网友
04.04
《深海迷航冰点之下》咖啡机使用攻略
游戏攻略
《深海迷航冰点之下》咖啡机使用攻略

《深海迷航冰点之下》咖啡机使用全攻略:生存必备热饮制作指南 在《深海迷航冰点之下》这片危机四伏的极地海域中,新手面临的第一个致命威胁往往是持续不断的体温流失。与前作不同,身体失温在游戏前期是核心生存挑战之一。有效应对失温的方法主要有:尽快解锁并制作抗压潜水服的升级模块——防寒服、靠近能提供热源的炽热

热心网友
04.04
三国志王道天下吕布骑阵容玩法攻略
手机教程
三国志王道天下吕布骑阵容玩法攻略

三国志王道天下吕布骑阵容玩法攻略 在策略手游《三国志王道天下》中,构建强力阵容是核心乐趣。以飞将吕布为核心的群雄骑兵队,以其惊人的爆发力与爽快的操作体验,备受玩家关注。本攻略将为你详细解析这套阵容的构建精髓、核心机制与实战搭配思路,助你打造一支所向披靡的突击铁骑。 阵容构成 这套阵容以纯粹的群雄阵营

热心网友
04.04