Ai2发布MolmoAct 2开源机器人模型专为真实环境设计

首页

热心网友

转载

2026-05-19

艾伦人工智能研究院（Ai2）近日发布了新一代开源机器人基础模型MolmoAct 2，标志着机器人AI向真实世界应用迈出了关键一步。该模型旨在解决当前机器人技术的核心挑战：如何突破实验室的受控环境，在复杂、多变且充满不确定性的真实物理世界中，实现稳定、可靠的任务执行。

Ai2发布面向真实环境的开源机器人基础模型MolmoAct 2

尽管AI在文本生成、代码编程等领域已取得显著进展，但涉及物理世界的具身智能——例如让机器人稳定地收拾餐具或在实验室准备样本——对现有系统而言仍是巨大挑战。Ai2在公告中明确指出，许多系统在连续数小时的任务中仍可能失败。MolmoAct 2的发布，正是为了应对这一瓶颈，它代表了行业向开发更通用、更具环境适应性的机器人AI模型发展的明确趋势，旨在减少对特定任务编程的重度依赖，赋予机器人自主感知与决策的能力。

从“固定程序”到“动作推理”

MolmoAct 2的核心突破在于其采用的“动作推理模型”架构。与依赖固定程序或需针对单一任务进行大量调优的传统模型不同，这一架构使系统在执行动作前，能够对三维环境进行深度分析与推理。这种基于理解的决策方式，直接带来了更强的任务通用性。官方介绍称，MolmoAct 2能够“开箱即用”地执行多种操作任务，尤其擅长需要双臂协调的复杂动作，例如折叠毛巾、分拣物品、搬运托盘以及清理桌面等。

速度与开放：两大核心亮点

除了智能性的提升，MolmoAct 2在响应速度上实现了质的飞跃。对于机器人控制的实时性与流畅性而言，速度至关重要。Ai2公布的数据显示，在启用自适应深度推理模式下，MolmoAct 2单次动作调用耗时仅约790毫秒。作为对比，其前代模型MolmoAct的耗时高达6700毫秒。这意味着响应速度提升了近九倍，使得机器人的行为更接近实时响应，显著减少了动作间的迟滞感。

另一大亮点是其彻底的开放性。Ai2秉承其一贯的开放AI开发理念，此次完整公开了模型权重、训练数据集以及一个开源机器人动作Token器。在机器人领域许多先进系统仍处于封闭专有状态的背景下，此举为更广泛的研究与社区创新铺平了道路。特别是同步发布的MolmoAct 2-Bimanual YAM数据集，被描述为“迄今最大规模的开源双臂桌面操作机器人数据集”，包含了超过720小时的机器人演示数据，覆盖折叠毛巾、扫描商品、手机充电等多种双臂协调任务，为训练与评估同类模型提供了宝贵资源。

真实表现与早期应用

模型的最终价值需通过实际表现来验证。Ai2表示，MolmoAct 2在模拟环境与真实机器人评估中均表现优异。在使用Franka机械臂进行的真实世界测试中，它在将物体移入碗中、放置移液管、将物体插入狭小空间等多项操作任务上取得了高成功率。此外，根据第三方机构Cortex AI的独立评估，该系统的性能也超越了多款竞品机器人模型。

更值得关注的是，它已开始在真实科研场景中落地应用。斯坦福医学院的研究人员正在一个“自驱动湿实验室”项目中，试点将MolmoAct 2集成到CRISPR基因编辑工作流程中，用于自动化执行样本传递、操作台式设备等重复性实验室操作。测试表明，针对特定工作流程进行微调后，MolmoAct 2在优化实验室关键环节、加速科学发现进程方面展现出强大潜力。

当前的局限与未来的考验

当然，任何前沿技术在早期阶段都存在局限性，MolmoAct 2也不例外。Ai2坦承了当前的两点主要局限：首先，模型采用批量规划动作的方式，而非实时持续调整运动轨迹，因此在遭遇完全未预料的突发干扰时，其即时响应能力可能受限。其次，模型的泛化能力仍有边界，目前主要适配于其接受过专项训练的机器人平台，若要在硬件配置差异较大的新平台上部署，仍需进行额外的适配训练。

这也引出了一个根本性问题：对机器人基础模型的终极考验，在于其能否在受控的实验室环境之外持续稳定工作。真实世界指令可能模糊，环境充满动态变化，微小误差也可能随时间累积。能否成功跨越这道从“实验室可靠”到“现实世界鲁棒”的鸿沟，是衡量MolmoAct 2乃至所有机器人基础模型成败的关键标准。

无论如何，MolmoAct 2的发布清晰地反映了开源机器人基础模型领域的快速发展势头。研究人员正致力于构建不再脆弱、能够真正理解并适应复杂物理世界的智能系统。目前，该模型的全部资源，包括权重、数据集、技术报告和代码，均已通过Ai2的研究平台向公众开放。

Q&A

Q1：MolmoAct 2是什么？它有哪些核心能力？

A：MolmoAct 2是由艾伦人工智能研究院（Ai2）发布的新一代开源机器人基础模型。其核心在于采用了“动作推理模型”架构，能够在执行物理动作前对三维环境进行智能推理。该模型支持开箱即用地执行多种双臂协作任务，如折叠毛巾、物品分拣、托盘搬运等。其推理速度相比前代实现大幅提升，单次动作调用耗时仅约790毫秒，约为前代模型的九分之一。

Q2：MolmoAct 2与其他机器人模型相比有什么优势？

A：MolmoAct 2的主要优势体现在三个方面：一是响应速度极快，推理时延从前代的6700毫秒大幅降至790毫秒；二是开放程度高，完整发布了模型权重、大规模数据集及开源动作Token器；三是配套资源丰富，提供了目前规模最大的开源双臂桌面操作数据集，包含超过720小时的演示数据。在第三方机构Cortex AI的评估中，其综合表现也优于多款竞争模型。

Q3：MolmoAct 2目前有哪些已知局限性？

A：MolmoAct 2目前存在两项主要局限：第一，其采用批量动作规划方式，无法进行实时持续的轨迹调整，因此在应对突发状况时动态响应能力有限；第二，模型的平台泛化能力有待提升，目前主要支持其训练所用的特定机器人平台，若需部署到硬件配置差异较大的新平台，需要进行额外的针对性训练与适配。

来源:https://ai.zhiding.cn/2026/0518/3187380.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：GreyOrange推出AI仓储模拟平台，优化自动化部署决策方案下一篇：2027款大众ID. Buzz回归上市 ID.4车型将短暂停产

相关攻略

卓驭科技发布多模态基础模型推动智能移动迈向万物自主新时代

在北京车展的聚光灯下，智能驾驶的竞争维度正悄然升级。当行业仍聚焦于特定场景的功能优化时，卓驭科技发布了一项定义未来的技术——行业首个原生多模态基础模型。这标志着竞争核心从“教会汽车识别路况”转向“赋予汽车类人的物理世界理解能力”，一场技术范式的深刻变革已然开启。卓驭科技的底气源于其扎实的量产根基。

热心网友

05.18

卓驭科技发布多模态基础模型引领智能移动与自主万物新趋势

第十九届北京国际汽车展览会现场，卓驭科技以“智能一切移动”为主题召开了一场重磅发布会。会上，行业首个原生多模态基础模型正式亮相，同时，卓驭科技宣布与中国一汽达成深度战略合作。这不仅仅是一次产品发布，更标志着智能驾驶技术的演进路径，正从过去的“场景适配”迈向全新的“物理世界通用”范式，为全球移动出行领

热心网友

05.18

清华大学与字节跳动合作推出万亿级时序AI模型Timer-S1革新预测技术

2026年3月6日，一项由清华大学与字节跳动联合主导的突破性研究在arXiv预印本平台正式发布，论文编号为arXiv:2603 04791v1。该研究成功构建了名为Timer-S1的时间序列预测基础模型。这一模型参数量高达83亿，并在规模超万亿时间点的庞大数据集上完成了深度训练，标志着时间序列预测领

热心网友

05.14

浙江大学发布UniVBench：首个统一视频基础模型评测基准

这项由浙江大学、字节跳动和浙江实验室联合开展的研究发表于2026年2月25日的arXiv预印本平台，论文编号为arXiv:2602 21835v1。人工智能领域正经历一场深刻的变革，而视频理解与生成技术无疑是这场变革中最引人注目的前沿。想象一下，未来的AI助手不仅能看懂一部电影的情节和情感，还能根

热心网友

05.13

科技数码

摩根士丹利称中国AI投资聚焦赋能者与基础模型广泛应用亦创造机遇

智通财经APP获悉，摩根士丹利近期发布深度研究报告，对中国人工智能（AI）产业的演进阶段进行了精准研判。报告明确指出，中国AI产业已步入一个关键转折期，其发展范式正经历根本性变革：核心正从早期的技术追赶，转向当前的价值兑现；焦点由“模型训练”移向“场景推理”，从“技术攻坚”移向“应用落地”，最终实现

热心网友

05.12