来了!具身智能(Embodied AI)领域再次迎来一位重磅选手——艾伦人工智能研究所(Ai2)推出的开源机器人动作推理模型 MolmoAct2 已正式登陆 Hugging Face 的 LeRobot 机器人学习框架。这意味着开发者如今能够在真实环境中更便捷地训练、评估和部署这款前沿的机器人控制模型,开箱即用的体验终于从口号变为现实。

什么是 MolmoAct2?
简而言之,MolmoAct2 是 Ai2 专为真实世界机器人控制而设计的开源动作推理模型(Action Reasoning Model)。它巧妙地将两大核心技术融为一体:一是强大的视觉语言骨干网络(Molmo2-ER),赋予机器人“火眼金睛”——精准的空间感知与指令理解能力;二是流匹配连续动作专家(Flow-Matching Continuous Action Expert),确保机器人的动作一气呵成、丝滑流畅。正是凭借这种“看得懂+动得准”的组合,MolmoAct2 能够理解复杂环境与人类指令,并直接转化为机器人小车、机械臂等硬件的实际动作。
LeRobot 生态的完美集成
MolmoAct2 接入 LeRobot 后,开发者将享受到全流程的“开箱即用”体验。此次集成带来了多项硬核功能:原生策略支持——LeRobot 现已原生支持 molmoact2 策略(Policy);全链路覆盖——从训练(Training)、评估(Evaluation)到部署(Deployment),再搭配详尽的官方文档,全套一步到位;双重动作模式——推理时,通过流匹配动作专家支持连续动作推理(Continuous Action Inference);训练时,则支持离散动作 Token(Discrete Action Tokens),让模型训练更高效、更稳定。
性能强劲,上手极简
MolmoAct2 的开箱即用性能表现相当出色。无论你是想直接体验其基准能力,还是计划针对特定机器人任务进行微调(Fine-tune),LeRobot 框架已将门槛降至最低。值得一提的是,基于 NVIDIA DGX Spark 算力平台运行的物体抓取与投放(Pick-and-place)推理测试结果优异,充分证明了该模型在实际工业与研究场景中的巨大潜力。
开发者实战:连续折毛巾任务大获成功!
MolmoAct2 的强悍实力并非停留在纸面。在近期一项高难度机器人挑战中,开发团队让机器人使用基于扩散(Diffusion)或流匹配(Flow-matching)的策略,连续完成两次毛巾折叠(Two consecutive towel folds)——这堪称柔性物体控制中的硬骨头。最终任务圆满成功,不仅验证了 MolmoAct2 非常适合处理这类带形变、高精度要求的柔性物体控制任务,也展示了 Hugging Face 硬件生态与 NVIDIA 算力支持为机器人学习带来的无限可能。
如果你正在寻找一个强大、灵活且开源的机器人控制方案,不妨前往 LeRobot 社区亲自体验 MolmoAct2 的魅力。
官方文档:https://huggingface.co/docs/lerobot/main/en/molmoact2
