具身智能行业开源模型测评的必要性与关键价值

时间：2026-01-08 13:13

文｜定焦One从2025年春晚的表演破圈到人形机器人马拉松，再到年底的量产落地、商业闭环，具身智能的风向正在发生变化。尤其当具身智能进入产业落地期，机器人表演式成功已经不足以满足业界对其能力的期待。

文｜定焦One

从2025年春晚上的表演出圈，到人形机器人马拉松，再到年底的量产落地和商业闭环，具身智能的航向正悄然转向。

尤其当具身智能进入产业落地期，机器人表演式的成功已不足以满足业界对其能力的期待。产业端如今更看重“机器人大脑”及其带来的泛化能力，因为真实世界并不存在完全标准化的场景。无论是在工业分拣、养老护理还是仓储物流等领域，机器人都需要自主且稳定地与真实物理世界交互。

——这恰恰需要强大的具身智能模型能力作为核心支撑。那么，在大规模应用浪潮到来之前，我们该如何科学评估具身智能模型这一“机器人大脑”的真实水准？

和大型语言模型一样，具身智能模型同样需要建立开放公正的评价体系，以测评为引擎推动行业进步。RoboChallenge正是全球首个大规模、多任务的真实机器人基准测试平台，旨在为VLA模型在机器人上的应用提供客观评估标准。

值得关注的是，具身智能模型测评和大型语言模型测评存在显著差异。大语言模型的测评多为“闭卷答题”，以静态数据输出与文本、图像指标为主，不涉及物理交互与连续动作执行。而具身模型的测评则更侧重“感知-决策-执行”的物理闭环，测评时需要预先公开任务，核心验证对象为视频动作序列和任务成功率，类似于“开卷考试+实操考核”。

因此，使用公开代码的开源具身智能模型参与测评，才是更货真价实、更有价值的。RoboChallenge最新发布的测评结果显示，自变量开源端到端具身智能基础模型wall-oss以46.43分超越pi0，总分排名第二，仅次于pi0.5。

Pi0、pi0.5背后的公司Physical Intelligence核心团队成员来自伯克利、斯坦福等高校和谷歌专家等。自变量机器人创始人王潜为南加州大学博士学位，是全球最早在神经网络中提出Attention机制的研究者之一；CTO王昊则主导开发国内首个多模态开源大模型“太乙”、百亿级大语言模型“燃灯”及千亿级模型“姜子牙”。

具体来看，wall-oss在叠洗碗巾、挂口袋杯、按按钮、浇盆栽、移物入盒及开瓶器进抽屉等多个单任务中排名第一。

排名前三名中，wall-oss是唯一一个国内开源具身基础模型。

开源模型将模型代码、训练数据乃至架构设计公开，让测评过程可全程复现，能够规避通过微调其他模型来“刷榜”的行为，可以更客观、真实地反映模型能力。这必将引导各个具身智能玩家回归技术本身，用技术能力构建自身的核心竞争力。

同时，开源模型有助于技术透明迭代，能够加速具身智能行业创新。开放协作的“集体智慧”，远比封闭开发更能应对真实世界的复杂性与随机性。

自变量自成立以来，就致力于树立开源的标杆，让每次开源都对行业产生价值。去年9月，wall-oss模型正式开源，预训练模型权重、训练代码、数据集接口以及详细部署文档全部公开，开发者可以在自己的机器人上直接跑通闭环流程。

自变量机器人联合创始人兼CTO王昊此前曾公开谈及自变量坚持开源的初心：“开源意味着我们可以站在巨人的肩膀上继续前进。我们可以基于已有成果做更多的改进，社区开发者的反馈也会帮助到开源的公司，开源公司可以从中吸取到经验，然后把这个技术路线思考得更加深入。一般的高校，或者一些小型的创业公司，他们可能没有能力去做基础模型，但是如果能够使用这些基础开源模型，他们就可以去做应用，把它用到各个方向，丰富整个生态，这也是非常重要的事情。”

在RoboChallenge发布测评结果之后，wall-oss提交的复现结果示例、微调代码也将在下周全部开源，让模型展现出的泛化能力、推理能力等有据可查。除了检验测试结果的真实性，开发者们也可以在平台上根据源代码和各个任务的微调代码，结合自己的数据完成复现微调。

这意味着，自变量提供的不仅仅是一个模型，而是一整套完整可复现的方案，这对具身智能基础模型的透明迭代和标准共建具有更深远的意义。

拥抱开源，是具身智能走向成熟的必经之路。只有把技术从封闭的实验室里解放出来，让更多人参与、验证、改进，才能真正突破单点创新的局限，具身智能才能真正从实验室走向真实世界。

来源：https://www.163.com/dy/article/KIOF17L805198R91.html

具身机器人神经网络智能行业正式版模型开源模型评测

上一篇摩托罗拉Razr+正式发布：竖向折叠屏进军高端市场 下一篇微软Copilot四大安全隐忧：AI安全新争议涌现

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

OpenClaw手机App上线，结果翻车了

OpenClaw 官方宣布，已正式推出 iOS 和 Android 原生移动 App，用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接：把 Agent 放进口袋里，让用户可以在移动端处理频道消息、任务和回复。从功能上看，OpenClaw 移动端并

科技数码 · 2026-07-01

优必选CEO周剑：家庭机器人生态核心投入过半精力

先说几个核心判断：优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上，直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进，现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景，另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间，技术路线尚未收敛

6月30日，申银万国在光连接系列研报中重点指出，MPO光连接器领域的投资机会值得高度关注。通俗来说，随着AI算力集群持续扩张，光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件，如今它直接决定着链路插损、可

科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上，区级部门一次性推出了7个AI“龙搭子”。其中，名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解，依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”，已在今年五一假期发布了内测版本。经过一个月市场验证后，该项目正式启动面向全社会的

科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日，南下资金持续大举买入港股，单日净流入金额高达58 95亿港元。接下来，我们直接盘点哪些个股获得资金青睐、哪些遭到减持：净买入方面，中芯国际领跑全场，单日吸金19 33亿港元；建滔积层板紧随其后，净买入10 59亿港元；腾讯控股获得7 65亿港元净流入；智谱（02513 HK）也有6 5