首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
智元Act2Goal方案:机器人如何从单张图像学会执行任务

智元Act2Goal方案:机器人如何从单张图像学会执行任务

热心网友
66
转载
2026-01-05



免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

在机器人领域,一个看似简单的任务往往需要复杂的指令和反复调试。但智元具身研究中心给出了一种颠覆性的答案:给机器人一张"目标照片",它就能自己想办法把面前的场景变成照片里的样子。



智元于近日正式发布Act2Goal方案,这不仅是一个新的操作算法,更是一种让机器人"以终为始"的全新思维方式。与传统机器人机械地执行死板指令不同,Act2Goal引入了"目标条件世界模型",使机器人不再只是"看一步走一步",而是拥有了预见未来的能力——在真正动手之前,它已经在大脑中构建了从现状通往目标的完整因果链条。

从"看一步走一步"到"以终为始"

在传统机器人操作中,系统通常只关注当前状态与目标状态,而缺乏对两者之间任务过程的显式建模。主流方法多采用直接映射的范式,将当前观测与目标状态输入策略网络以预测动作,这使得机器人难以判断执行进度,也容易在任务延长或环境变化时出现误差累积。



Act2Goal则通过在动作生成之前引入目标条件世界模型,对从当前状态到目标状态的演化过程进行建模,并生成一系列中间视觉状态作为任务进程的结构化表征,为机器人动作提供明确操作锚点。

"我们相信,这种‘先理解世界如何变化,再决定如何行动’的思路,将为更通用、更可靠的机器人系统提供重要支撑。"智元技术团队解释道。

零样本泛化与自我进化能力

Act2Goal最令人惊叹的特性在于其"零样本泛化能力"和"自我进化"本能。系统能够在从未见过的环境和物体面前,展现出惊人的零样本泛化能力,无需人类手把手教(无奖励信号),就能在真实世界的交互中快速"复盘"自己的行为轨迹。





实验数据显示,面对高难度的陌生任务,Act2Goal仅需数分钟的在线自我磨练,成功率就能从30%提升至90%。这一性能提升速度,远超传统机器人学习模式。

"这不仅仅是技术的进步,更是机器人认知方式的革命。"一位具身智能行业专家表示,"它让机器人从'执行者'转变为'思考者'。"

Act2Goal的训练过程分为两个阶段:首先通过大规模离线模仿学习进行训练,系统微调预训练的世界模型,使其能够生成从当前状态到目标状态的多视角、多尺度视觉轨迹;随后引入在线自我提升机制,利用回顾性经验重放(HER)实现自主性能优化。

在执行过程中,机器人会自动收集每一步的状态、动作及执行结果,并将轨迹重新标注为新的目标示例,存入回放缓冲区。无论任务是否成功完成,系统都能利用这些数据进行端到端微调,仅更新新增的LoRA层参数,基础模型保持冻结。

"部署Act2Goal模型的机器人在多个域外任务上展现出色性能,甚至能在线练习绘制未见过的图案,持续提升性能。"智元技术团队表示。

从实验室到真实世界的跨越

Act2Goal的核心贡献在于重新审视了目标条件操作中的一个基本问题:从当前状态到目标状态之间,机器人是否真正理解过程?通过在策略中显式引入目标条件世界模型,并结合多尺度时间建模与深度融合机制,Act2Goal为目标条件机器人操作提供了一种新的建模范式。



"我们相信,这种'先理解世界如何变化,再决定如何行动'的思路,将为更通用、更可靠的机器人系统提供重要支撑。"智元研究团队表示。

随着智能制造、服务机器人和家庭自动化需求的不断增长,Act2Goal所代表的技术路线有望成为下一代机器人系统的标准配置,推动机器人从"工具"向"伙伴"的转变,让机器真正"懂"得如何达成目标。

从工业端来看,装配、分拣等长时序任务中,机器人无需反复调试程序就能适配不同批次产品,可大幅提升生产效率;从消费端而言,服务机器人能快速理解用户的模糊需求(如“把桌子摆成照片里的样子”),无需用户学习复杂指令,加速走进家庭和门店。

当前,具身智能赛道正处于“技术比拼转向商用落地”的关键阶段,Act2Goal的推出,不仅强化了智元的技术壁垒,更可能推动行业从“单一任务机器人”向“通用智能机器人”跨越。随着方案在智元现有机器人产品线的适配,其商业化效果或将在2026年逐步显现,进一步改写全球具身智能的竞争格局。

采写:南都·湾财社记者 胡雯雯

来源:https://www.163.com/dy/article/KIGOGTBV05129QAF.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

谷歌或将Chromebook更名为ChromeOS电脑
科技数码
谷歌或将Chromebook更名为ChromeOS电脑

谷歌计划联合多家主流PC厂商,将Chromebook品牌升级为“Googlebook”。新产品将深度集成Gemini等AI服务,并强化与安卓设备的跨端协同。其具体功能与可能搭载的新操作系统,有望在即将举行的谷歌活动中揭晓。

热心网友
05.13
谷歌Chromebook或将更名新名称曝光
科技数码
谷歌Chromebook或将更名新名称曝光

科技圈今日迎来一则颇具分量的行业动态:据网页存档记录显示,谷歌正携手数家主流OEM制造商,酝酿将我们熟知的“Chromebook”品牌,全面升级为“Googlebook”。 这一消息最初由知名科技媒体XDA提前泄露,尽管相关报道很快被撤下,但眼疾手快的Reddit社区用户已保存下关键页面快照,使得该

热心网友
05.13
Midjourney生成偶像打歌服舞蹈动作的AI绘画教程
AI
Midjourney生成偶像打歌服舞蹈动作的AI绘画教程

想用Midjourney生成一张既有动感舞姿,又穿着华丽打歌服的偶像舞台图?这事儿听起来简单,但直接丢个“跳舞的偶像”给AI,出来的结果往往不是动作僵硬,就是服装跑偏。别急,要精准拿捏这种高动态、高细节的风格,其实有一套经过验证的“组合拳”。 一、用动态姿态词+专业舞蹈术语构建提示 Midjourn

热心网友
05.12
视觉语言模型VLA发展前景与市场争议深度解析
AI
视觉语言模型VLA发展前景与市场争议深度解析

不能因为VLA有短板,就把世界模型推上神坛。 “So let s all take a moment of silence for our dear friend VLAs They ve served us well, rest in peace, long live World Action

热心网友
05.12
Midjourney视频动作优化指南提示词技巧实战解析
AI
Midjourney视频动作优化指南提示词技巧实战解析

MidJourney视频动作僵硬常因提示词未能描述真实运动规律。优化关键在于:精确描述动作的时间连续性、节奏与物理约束;为关键部位设定稳定性锚点;合理搭配动态参数;将复杂动作拆解为分镜级描述。通过显式排除违反常识的运动,并强化帧间一致性,可显著提升动作的自然流畅度。

热心网友
05.10

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

燕云十六声天长地酒成就怎么达成 详细完成方法解析
游戏攻略
燕云十六声天长地酒成就怎么达成 详细完成方法解析

在《燕云十六声》凉州区域达成“天长地酒”成就,需依次前往清玉岸及后续两处指定地点完成饮酒互动。三步全部完成后即可领取奖励。

热心网友
05.13
燕云十六声渡影者成就完成方法详解
游戏攻略
燕云十六声渡影者成就完成方法详解

在《燕云十六声》皇宫区域达成“渡影者”成就,需先传送至崇元殿,并将时间调整至子时。找到NPC叶育延对话后,按指引寻至张扬。依次清理其左右两侧的石狮子,最后返回与张扬对话即可解锁成就。

热心网友
05.13
燕云十六声俺们真的懂了成就完成方法详解
游戏攻略
燕云十六声俺们真的懂了成就完成方法详解

在《燕云十六声》中,达成“俺们真的懂了”成就需完成升平楼区域的借书事件链。首先于戌时前往升平楼找到NPC陈看全接取任务,随后偷听吴清对话并取得其书籍。最后将时间调至白天,返回升平楼把书交还给陈看全,即可解锁成就并获得奖励。

热心网友
05.13
Bun内存泄漏拖垮Claude Code后如何用Rust重写修复
业界动态
Bun内存泄漏拖垮Claude Code后如何用Rust重写修复

Bun宣布用六天完成的Rust版本取代原有Zig实现,涉及96万行代码,旨在解决内存泄漏与稳定性问题,尤其是作为ClaudeCode运行时的性能瓶颈。重写主要由AI完成,虽快速通过测试,但引发社区对代码质量及大量unsafe调用的担忧。此举标志Bun转向Rust,也反映AI驱动大规模代码重写的趋势。

热心网友
05.13
a16z成美中期选举最大捐助方 联邦捐款超1.15亿美元
web3.0
a16z成美中期选举最大捐助方 联邦捐款超1.15亿美元

风险投资巨头a16z及其联合创始人在本届美国中期选举中已披露联邦捐款超1 15亿美元,成为已知最大捐助方。其捐款额远超索罗斯、马斯克等人,较上一选举周期大幅增加。选举次日,a16z即向加密货币行业相关超级政治行动委员会注资超2300万美元,显示出其政治投入具有长期战略意图。

热心网友
05.13