首页 游戏 软件 资讯 排行榜 专题
首页
AI
Ai2发布MolmoAct 2开源机器人模型专为真实环境设计

Ai2发布MolmoAct 2开源机器人模型专为真实环境设计

热心网友
72
转载
2026-05-19

艾伦人工智能研究院(Ai2)近日发布了新一代开源机器人基础模型MolmoAct 2,标志着机器人AI向真实世界应用迈出了关键一步。该模型旨在解决当前机器人技术的核心挑战:如何突破实验室的受控环境,在复杂、多变且充满不确定性的真实物理世界中,实现稳定、可靠的任务执行。

Ai2发布面向真实环境的开源机器人基础模型MolmoAct 2

尽管AI在文本生成、代码编程等领域已取得显著进展,但涉及物理世界的具身智能——例如让机器人稳定地收拾餐具或在实验室准备样本——对现有系统而言仍是巨大挑战。Ai2在公告中明确指出,许多系统在连续数小时的任务中仍可能失败。MolmoAct 2的发布,正是为了应对这一瓶颈,它代表了行业向开发更通用、更具环境适应性的机器人AI模型发展的明确趋势,旨在减少对特定任务编程的重度依赖,赋予机器人自主感知与决策的能力。

从“固定程序”到“动作推理”

MolmoAct 2的核心突破在于其采用的“动作推理模型”架构。与依赖固定程序或需针对单一任务进行大量调优的传统模型不同,这一架构使系统在执行动作前,能够对三维环境进行深度分析与推理。这种基于理解的决策方式,直接带来了更强的任务通用性。官方介绍称,MolmoAct 2能够“开箱即用”地执行多种操作任务,尤其擅长需要双臂协调的复杂动作,例如折叠毛巾、分拣物品、搬运托盘以及清理桌面等。

速度与开放:两大核心亮点

除了智能性的提升,MolmoAct 2在响应速度上实现了质的飞跃。对于机器人控制的实时性与流畅性而言,速度至关重要。Ai2公布的数据显示,在启用自适应深度推理模式下,MolmoAct 2单次动作调用耗时仅约790毫秒。作为对比,其前代模型MolmoAct的耗时高达6700毫秒。这意味着响应速度提升了近九倍,使得机器人的行为更接近实时响应,显著减少了动作间的迟滞感。

另一大亮点是其彻底的开放性。Ai2秉承其一贯的开放AI开发理念,此次完整公开了模型权重、训练数据集以及一个开源机器人动作Token器。在机器人领域许多先进系统仍处于封闭专有状态的背景下,此举为更广泛的研究与社区创新铺平了道路。特别是同步发布的MolmoAct 2-Bimanual YAM数据集,被描述为“迄今最大规模的开源双臂桌面操作机器人数据集”,包含了超过720小时的机器人演示数据,覆盖折叠毛巾、扫描商品、手机充电等多种双臂协调任务,为训练与评估同类模型提供了宝贵资源。

真实表现与早期应用

模型的最终价值需通过实际表现来验证。Ai2表示,MolmoAct 2在模拟环境与真实机器人评估中均表现优异。在使用Franka机械臂进行的真实世界测试中,它在将物体移入碗中、放置移液管、将物体插入狭小空间等多项操作任务上取得了高成功率。此外,根据第三方机构Cortex AI的独立评估,该系统的性能也超越了多款竞品机器人模型。

更值得关注的是,它已开始在真实科研场景中落地应用。斯坦福医学院的研究人员正在一个“自驱动湿实验室”项目中,试点将MolmoAct 2集成到CRISPR基因编辑工作流程中,用于自动化执行样本传递、操作台式设备等重复性实验室操作。测试表明,针对特定工作流程进行微调后,MolmoAct 2在优化实验室关键环节、加速科学发现进程方面展现出强大潜力。

当前的局限与未来的考验

当然,任何前沿技术在早期阶段都存在局限性,MolmoAct 2也不例外。Ai2坦承了当前的两点主要局限:首先,模型采用批量规划动作的方式,而非实时持续调整运动轨迹,因此在遭遇完全未预料的突发干扰时,其即时响应能力可能受限。其次,模型的泛化能力仍有边界,目前主要适配于其接受过专项训练的机器人平台,若要在硬件配置差异较大的新平台上部署,仍需进行额外的适配训练。

这也引出了一个根本性问题:对机器人基础模型的终极考验,在于其能否在受控的实验室环境之外持续稳定工作。真实世界指令可能模糊,环境充满动态变化,微小误差也可能随时间累积。能否成功跨越这道从“实验室可靠”到“现实世界鲁棒”的鸿沟,是衡量MolmoAct 2乃至所有机器人基础模型成败的关键标准。

无论如何,MolmoAct 2的发布清晰地反映了开源机器人基础模型领域的快速发展势头。研究人员正致力于构建不再脆弱、能够真正理解并适应复杂物理世界的智能系统。目前,该模型的全部资源,包括权重、数据集、技术报告和代码,均已通过Ai2的研究平台向公众开放。

Q&A

Q1:MolmoAct 2是什么?它有哪些核心能力?

A:MolmoAct 2是由艾伦人工智能研究院(Ai2)发布的新一代开源机器人基础模型。其核心在于采用了“动作推理模型”架构,能够在执行物理动作前对三维环境进行智能推理。该模型支持开箱即用地执行多种双臂协作任务,如折叠毛巾、物品分拣、托盘搬运等。其推理速度相比前代实现大幅提升,单次动作调用耗时仅约790毫秒,约为前代模型的九分之一。

Q2:MolmoAct 2与其他机器人模型相比有什么优势?

A:MolmoAct 2的主要优势体现在三个方面:一是响应速度极快,推理时延从前代的6700毫秒大幅降至790毫秒;二是开放程度高,完整发布了模型权重、大规模数据集及开源动作Token器;三是配套资源丰富,提供了目前规模最大的开源双臂桌面操作数据集,包含超过720小时的演示数据。在第三方机构Cortex AI的评估中,其综合表现也优于多款竞争模型。

Q3:MolmoAct 2目前有哪些已知局限性?

A:MolmoAct 2目前存在两项主要局限:第一,其采用批量动作规划方式,无法进行实时持续的轨迹调整,因此在应对突发状况时动态响应能力有限;第二,模型的平台泛化能力有待提升,目前主要支持其训练所用的特定机器人平台,若需部署到硬件配置差异较大的新平台,需要进行额外的针对性训练与适配。

来源:https://ai.zhiding.cn/2026/0518/3187380.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

卓驭科技发布多模态基础模型 推动智能移动迈向万物自主新时代
AI
卓驭科技发布多模态基础模型 推动智能移动迈向万物自主新时代

在北京车展的聚光灯下,智能驾驶的竞争维度正悄然升级。当行业仍聚焦于特定场景的功能优化时,卓驭科技发布了一项定义未来的技术——行业首个原生多模态基础模型。这标志着竞争核心从“教会汽车识别路况”转向“赋予汽车类人的物理世界理解能力”,一场技术范式的深刻变革已然开启。 卓驭科技的底气源于其扎实的量产根基。

热心网友
05.18
卓驭科技发布多模态基础模型 引领智能移动与自主万物新趋势
AI
卓驭科技发布多模态基础模型 引领智能移动与自主万物新趋势

第十九届北京国际汽车展览会现场,卓驭科技以“智能一切移动”为主题召开了一场重磅发布会。会上,行业首个原生多模态基础模型正式亮相,同时,卓驭科技宣布与中国一汽达成深度战略合作。这不仅仅是一次产品发布,更标志着智能驾驶技术的演进路径,正从过去的“场景适配”迈向全新的“物理世界通用”范式,为全球移动出行领

热心网友
05.18
清华大学与字节跳动合作推出万亿级时序AI模型Timer-S1革新预测技术
AI
清华大学与字节跳动合作推出万亿级时序AI模型Timer-S1革新预测技术

2026年3月6日,一项由清华大学与字节跳动联合主导的突破性研究在arXiv预印本平台正式发布,论文编号为arXiv:2603 04791v1。该研究成功构建了名为Timer-S1的时间序列预测基础模型。这一模型参数量高达83亿,并在规模超万亿时间点的庞大数据集上完成了深度训练,标志着时间序列预测领

热心网友
05.14
浙江大学发布UniVBench:首个统一视频基础模型评测基准
AI
浙江大学发布UniVBench:首个统一视频基础模型评测基准

这项由浙江大学、字节跳动和浙江实验室联合开展的研究发表于2026年2月25日的arXiv预印本平台,论文编号为arXiv:2602 21835v1。 人工智能领域正经历一场深刻的变革,而视频理解与生成技术无疑是这场变革中最引人注目的前沿。想象一下,未来的AI助手不仅能看懂一部电影的情节和情感,还能根

热心网友
05.13
摩根士丹利称中国AI投资聚焦赋能者与基础模型广泛应用亦创造机遇
科技数码
摩根士丹利称中国AI投资聚焦赋能者与基础模型广泛应用亦创造机遇

智通财经APP获悉,摩根士丹利近期发布深度研究报告,对中国人工智能(AI)产业的演进阶段进行了精准研判。报告明确指出,中国AI产业已步入一个关键转折期,其发展范式正经历根本性变革:核心正从早期的技术追赶,转向当前的价值兑现;焦点由“模型训练”移向“场景推理”,从“技术攻坚”移向“应用落地”,最终实现

热心网友
05.12

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

多平台推广的优势与核心价值解析
业界动态
多平台推广的优势与核心价值解析

在流量日益分散的今天,把鸡蛋放在同一个篮子里,风险不言而喻。多平台推广,早已不是“要不要做”的选择题,而是“如何做好”的生存题。它的核心价值,可以概括为两点:实现“流量风险对冲”,以及构建“品牌触点全覆盖”。通过在不同生态位——无论是搜索、短视频、图文还是电商——建立内容矩阵,企业不仅能有效缓冲单一

热心网友
05.19
DeepSeek知识库搭建教程 从零开始构建企业智能问答系统
业界动态
DeepSeek知识库搭建教程 从零开始构建企业智能问答系统

DeepSeek知识库的核心,是运用RAG(检索增强生成)技术,将DeepSeek强大的大语言模型推理能力,与您的私有文档资源——包括PDF文件、内部代码库、标准操作流程(SOP)等——深度融合。其最终目标是实现基于特定垂直领域数据的精准智能问答,让AI的回答不再是通用泛化,而是具备专业依据、内容详

热心网友
05.19
三大运营商入局AI付费服务 使用门槛低至99元
AI
三大运营商入局AI付费服务 使用门槛低至99元

三大运营商推出Token套餐,将大模型调用量包装为类似流量包的产品,以降低AI使用门槛。中国电信推出个人与企业多档套餐,最低月费9 9元;上海移动推出1元购40万Tokens服务;联通则提供个人与团队版套餐。运营商凭借用户渠道和支付优势,推动算力消费向大众市场普及,可能重塑AI服务消费模式。

热心网友
05.19
本地部署量化模型解决HermesAgent响应慢问题
AI
本地部署量化模型解决HermesAgent响应慢问题

HermesAgent本地运行缓慢常因未量化的大语言模型占用资源过多。可通过AWQ量化模型、llama cpp后端加载GGUF模型、配置vLLM引擎提升并发吞吐、禁用非必要工具降低上下文开销,以及调整SQLite记忆检索阈值等方案优化。这些方法能显著降低延迟,提升响应速度。

热心网友
05.19
AI治理评估工程:破解智能体监管缺失的关键路径
AI
AI治理评估工程:破解智能体监管缺失的关键路径

随着AI智能体能力的持续增强,确保其行为始终符合预设目标与安全边界,已成为行业亟待解决的核心挑战。然而,当前主流的治理方案在防止智能体“失控”或“脱轨”方面,仍面临显著的实践瓶颈。 在之前的探讨中,我们分析了主流治理思路:部署多样化的对抗性验证器,构建一个多层次的安全审查网络。该方案的核心逻辑并非限

热心网友
05.19