首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
智元Act2Goal方案:机器人如何从单张图像学会执行任务

智元Act2Goal方案:机器人如何从单张图像学会执行任务

热心网友
29
转载
2026-01-05



免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

在机器人领域,一个看似简单的任务往往需要复杂的指令和反复调试。但智元具身研究中心给出了一种颠覆性的答案:给机器人一张"目标照片",它就能自己想办法把面前的场景变成照片里的样子。



智元于近日正式发布Act2Goal方案,这不仅是一个新的操作算法,更是一种让机器人"以终为始"的全新思维方式。与传统机器人机械地执行死板指令不同,Act2Goal引入了"目标条件世界模型",使机器人不再只是"看一步走一步",而是拥有了预见未来的能力——在真正动手之前,它已经在大脑中构建了从现状通往目标的完整因果链条。

从"看一步走一步"到"以终为始"

在传统机器人操作中,系统通常只关注当前状态与目标状态,而缺乏对两者之间任务过程的显式建模。主流方法多采用直接映射的范式,将当前观测与目标状态输入策略网络以预测动作,这使得机器人难以判断执行进度,也容易在任务延长或环境变化时出现误差累积。



Act2Goal则通过在动作生成之前引入目标条件世界模型,对从当前状态到目标状态的演化过程进行建模,并生成一系列中间视觉状态作为任务进程的结构化表征,为机器人动作提供明确操作锚点。

"我们相信,这种‘先理解世界如何变化,再决定如何行动’的思路,将为更通用、更可靠的机器人系统提供重要支撑。"智元技术团队解释道。

零样本泛化与自我进化能力

Act2Goal最令人惊叹的特性在于其"零样本泛化能力"和"自我进化"本能。系统能够在从未见过的环境和物体面前,展现出惊人的零样本泛化能力,无需人类手把手教(无奖励信号),就能在真实世界的交互中快速"复盘"自己的行为轨迹。





实验数据显示,面对高难度的陌生任务,Act2Goal仅需数分钟的在线自我磨练,成功率就能从30%提升至90%。这一性能提升速度,远超传统机器人学习模式。

"这不仅仅是技术的进步,更是机器人认知方式的革命。"一位具身智能行业专家表示,"它让机器人从'执行者'转变为'思考者'。"

Act2Goal的训练过程分为两个阶段:首先通过大规模离线模仿学习进行训练,系统微调预训练的世界模型,使其能够生成从当前状态到目标状态的多视角、多尺度视觉轨迹;随后引入在线自我提升机制,利用回顾性经验重放(HER)实现自主性能优化。

在执行过程中,机器人会自动收集每一步的状态、动作及执行结果,并将轨迹重新标注为新的目标示例,存入回放缓冲区。无论任务是否成功完成,系统都能利用这些数据进行端到端微调,仅更新新增的LoRA层参数,基础模型保持冻结。

"部署Act2Goal模型的机器人在多个域外任务上展现出色性能,甚至能在线练习绘制未见过的图案,持续提升性能。"智元技术团队表示。

从实验室到真实世界的跨越

Act2Goal的核心贡献在于重新审视了目标条件操作中的一个基本问题:从当前状态到目标状态之间,机器人是否真正理解过程?通过在策略中显式引入目标条件世界模型,并结合多尺度时间建模与深度融合机制,Act2Goal为目标条件机器人操作提供了一种新的建模范式。



"我们相信,这种'先理解世界如何变化,再决定如何行动'的思路,将为更通用、更可靠的机器人系统提供重要支撑。"智元研究团队表示。

随着智能制造、服务机器人和家庭自动化需求的不断增长,Act2Goal所代表的技术路线有望成为下一代机器人系统的标准配置,推动机器人从"工具"向"伙伴"的转变,让机器真正"懂"得如何达成目标。

从工业端来看,装配、分拣等长时序任务中,机器人无需反复调试程序就能适配不同批次产品,可大幅提升生产效率;从消费端而言,服务机器人能快速理解用户的模糊需求(如“把桌子摆成照片里的样子”),无需用户学习复杂指令,加速走进家庭和门店。

当前,具身智能赛道正处于“技术比拼转向商用落地”的关键阶段,Act2Goal的推出,不仅强化了智元的技术壁垒,更可能推动行业从“单一任务机器人”向“通用智能机器人”跨越。随着方案在智元现有机器人产品线的适配,其商业化效果或将在2026年逐步显现,进一步改写全球具身智能的竞争格局。

采写:南都·湾财社记者 胡雯雯

来源:https://www.163.com/dy/article/KIGOGTBV05129QAF.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

打工族养小龙虾:5个低成本副业秘诀
科技数码
打工族养小龙虾:5个低成本副业秘诀

如果你还把人工智能理解成一个更会说话的对话框,那你看到的只是它最温和的一面。真正开始改造办公室生态的,不再只是“会聊天的模型”,而是以OpenClaw为代表的自主智能体。圈内有人叫它“小龙虾”,这名

热心网友
03.30
73亿参数模型突破,从视频学习物理操控机器人新范式
AI
73亿参数模型突破,从视频学习物理操控机器人新范式

新智元报道编辑:LRST【新智元导读】机器人操控的「数据困境」一直是行业痛点:要让机器人学会精细操作,传统方法需要大量人工标注的动作演示数据,成本高昂、周期漫长。这个瓶颈能否被突破?大型视频生成模型

热心网友
03.27
北大首推智能视频助手,多所高校试点应用
科技数码
北大首推智能视频助手,多所高校试点应用

这项由北京大学联合中科院自动化所、清华大学、Adobe等多家机构共同完成的突破性研究,发表于2026年3月的计算机视觉顶级会议论文集(arXiv:2603 20422v1)。有兴趣深入了解的读者可以

热心网友
03.26
AI如何实现类人视频理解:突破机制与技术路径
科技数码
AI如何实现类人视频理解:突破机制与技术路径

这项由东北大学、加州大学圣地亚哥分校、马里兰大学、得克萨斯大学奥斯汀分校以及华盛顿大学联合开展的研究发表于2026年3月,论文编号为arXiv:2603 22281v1。研究团队针对现有视频理解技术

热心网友
03.26
AI2突破:赋能机器人零试错模拟学习与真实部署
科技数码
AI2突破:赋能机器人零试错模拟学习与真实部署

这项由艾伦人工智能研究院(Allen Institute for AI)领导的突破性研究发表于2026年,论文编号为arXiv:2603 16861v1。研究团队包含来自华盛顿大学、普林斯顿大学、加

热心网友
03.25

最新APP

恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29
暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26

热门推荐

华为小米备货充足年底新机暂不涨价
网络安全
华为小米备货充足年底新机暂不涨价

PChome 3月30日消息,随着存储价格的不断上涨,一些手机品牌已经被迫进行了涨价。目前,小米、华为、荣耀都尚未对已发布的机型进行涨价,但能扛到什么时候就无法预知了。据消息人士透露,小米和华为目前

热心网友
03.30
发烧友实测28000元天价音频线:与平价线材差异多大?
电脑教程
发烧友实测28000元天价音频线:与平价线材差异多大?

3月30日消息,价值几万和价值几十元的音频线,音质差距会有多少,答案是零。知名音频测评频道Audio Science Review的Amir实测对比,售价4100美元(约28369元人民币)的Kim

热心网友
03.30
夸克浏览器快捷入口设置与高效使用指南
手机教程
夸克浏览器快捷入口设置与高效使用指南

夸克浏览器,一款以简洁高效著称的浏览器,为用户带来了诸多便捷体验。那么,它的便捷使用入口都有哪些呢?手机桌面快捷方式在手机主屏幕上长按空白处,点击“桌面设置”,找到“快捷方式”选项

热心网友
03.30
全新QQ上市发布会前瞻:QQ3王者归来,颠覆体验启幕
编程语言
全新QQ上市发布会前瞻:QQ3王者归来,颠覆体验启幕

据悉,全新QQ3上市发布会将于3月30日在成都露天音乐公园隆重举行。本次发布会以“王者归来 一部到位”为主题,将向广大用户深度诠释全新QQ3的核心价值,同时重磅公布正式售价与购车权益。全新QQ3作为

热心网友
03.30
新手曹操强势阵容搭配攻略:3大核心武将组合解析
游戏攻略
新手曹操强势阵容搭配攻略:3大核心武将组合解析

在新三国志曹操传中,组建一个强力阵容对于新手玩家来说至关重要。合理的阵容搭配能让你在游戏中更加轻松地应对各种挑战,取得更好的成绩。以下为你介绍一些新手强力阵容搭配方案。一、骑兵突进

热心网友
03.30