游乐游手机版
首页/业界动态/文章详情

云蝶科技科学家受邀CCMAS 2026:强化学习赋能具身智能落地

时间:2026-07-05 12:44
云蝶科技科学家赵梦辰在CCMAS2026上指出,具身智能从实验室走向真实场景的关键在于环境反馈与多智能体协同中的持续学习。他聚焦强化学习信用分配难题,提出以环境增强的世界模型为核心,结合多智能体协同与真机强化学习,构建面向真实场景的具身智能训练闭环。

当机器人走进酒店、物业与康养体检等真实服务场景时,真正的技术壁垒并非仅仅是“能执行动作”,而是在环境反馈与多智能体协作中持续进化的能力。

强化学习让具身智能走向真实世界:云蝶科技科学家受邀出席CCMAS 2026

具身智能领域的竞争,正从“单机动作展示”全面转向“真实环境中的持续学习与多智能体协同”。这不再是简单的Demo比拼,而是真正考验技术深度的阶段。

6月27日至28日,第四届CCF多智能体系统会议(CCMAS 2026)在南京大学苏州校区成功举办。大会邀请了南洋理工大学Stefano V. Albrecht教授、字节跳动Seed Robotics首席科学家李航、哈尔滨工业大学(深圳)张民教授、清华大学朱军教授等学界与产业界权威人士,围绕多智能体基础模型、机器人基础模型、世界模型与智能体强化学习等前沿方向展开深度研讨。

云蝶科技科学家、华南理工大学副教授赵梦辰受邀出席,并以《智能体强化学习中的信用分配机制》为题发表专题报告。他的分享揭示了具身智能从实验室走向真实场景时,一个常被忽视却至关重要的技术关卡。

01 真正的难点,远不止让机器人“动起来”

随着大模型进入Agentic RL阶段,强化学习正成为智能体能力进化的关键路径。然而,与传统强化学习不同,大模型智能体通过连续生成token来完成规划与决策:一个任务最终成功,究竟应归因于哪一步推理?哪一次工具调用?哪一个动作选择?这正是信用分配机制要解决的核心问题。

对于具身智能来说,这个问题更加复杂。机器人面对的并非静态指令,而是持续变化的真实环境;一次任务往往涉及感知、规划、操作、环境反馈以及多机器人协作。只有将最终结果准确回溯到关键决策,模型才能从成功与失败中持续学习,强化学习后训练才可能真正进入真机闭环。这就像教导一个团队完成复杂任务,你无法确定是哪位成员、哪一步操作促成了成功——如果奖励无法精准分配,团队就无法高效进化。

赵梦辰在报告中指出,以GRPO为代表的Agentic RL算法虽已成为优化大模型智能体策略的主流方法,但大模型智能体决策的根本范式是token生成,这给Agentic RL的信用分配带来了极大挑战。他从信用分配视角系统拆解了前沿Agentic RL方法,深入解释了信用分配难题的成因,并介绍了其课题组与云蝶科技在智能体强化学习、具身大脑及多智能体协同方向的研究进展。这些研究共同指向一个目标:让智能体学会从结果中精准提取经验,而非盲目试错。

02 一场报告,折射云蝶的核心技术路线

云蝶并不将具身智能理解为“给机器人接入一个大模型”。在这个行业中,太多企业把精力浪费在更换模型、堆砌参数上,而忽略了最根本的问题——机器人、环境与任务,能否共同纳入一个可学习、可反馈、可进化的完整系统。

在酒店、物业、康养体检等真实服务场景中,机器人从来不是孤立工作的。空间布局、门禁与电梯等设施、服务流程、人员状态以及其他机器人,都会影响任务执行。场景越真实,变量越多,传统的“感知-规划-执行”流水线就越容易在某个环节断裂。

云蝶的技术路线,是以环境增强的世界模型为核心,让环境智能体与机器人智能体协同建模,并通过多智能体强化学习完成策略优化与能力进化。在这一框架中,世界模型负责理解环境、预测动作后果;多智能体强化学习负责处理协作决策与信用分配;真机部署则不断产生高价值反馈,形成“场景数据—模型训练—策略优化—真实验证”的闭环。

这意味着,云蝶要构建的并非单一机器人产品,而是一套面向真实场景的具身智能训练与协同进化平台:把场景变成训练基础设施,把每一次真实任务变成模型继续进化的数据资产。这不仅是技术路线的选择,更是对行业趋势的深刻预判。

03 从多智能体学术谱系,到真实场景产业闭环

赵梦辰博士毕业于南洋理工大学计算机科学与工程学院,师从AAAI Fellow、智能体领域世界知名专家安波教授,并获南洋理工大学计算机学院杰出博士论文奖。沿着这一学术谱系,赵梦辰长期聚焦强化学习、智能体与多智能体系统研究,现任华南理工大学软件学院副教授、大数据与智能机器人教育部重点实验室核心成员、CCF多个专委会执行委员。他长期致力于强化学习、多智能体系统与大模型的研究与落地工作,已在ICML、NeurIPS、ICLR等国际顶级人工智能会议和期刊发表论文40余篇,并主持多项国家级及省部级重点科研项目。

对云蝶而言,科学家团队的价值并非停留在学术背书。赵梦辰及其课题组直接参与了具身大脑、多智能体协同、强化学习后训练等核心能力建设,并与真实场景中的工程验证紧密结合。学术前沿与产业落地之间,从来不是单向的输出关系——而是双向的迭代与反馈。

此次在CCMAS 2026进行前沿分享,释放出一个更清晰的信号:云蝶正在将顶尖科研能力、真实B端场景和可持续数据闭环系统性地连接起来。当行业从“机器人能否完成一个Demo”进入“机器人能否在真实世界持续进化”的阶段,环境理解、多智能体协同与真机强化学习将成为决定规模化落地的关键。云蝶希望成为这一基础设施的构建者,让机器人在真实场景中学会协作、积累经验,并不断迈向更强的泛化能力。

来源:https://www.ithome.com/0/970/693.htm
上一篇高通总法律顾问:6G专利价值取决于标准核心 下一篇字节大疆创业者入局AI运动训练 APP登多国榜单前列
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
中国牵头全球首个自动驾驶世界标准 L3/L4上路新阶段
业界动态 · 2026-07-05

中国牵头全球首个自动驾驶世界标准 L3/L4上路新阶段

2026年6月,联合国世界车辆法规协调组织通过全球首个自动驾驶技术法规,由中国等多国共同牵头。法规明确L3 L4级系统安全要求、全生命周期管理及测试方法,将于同年7月生效。中国同步推进强制性国家标准,衔接国际规则,推动自动驾驶进入合规新阶段。

当贝耳机Air 1正式发布,AI软硬件一体化全面落地
业界动态 · 2026-07-05

当贝耳机Air 1正式发布,AI软硬件一体化全面落地

提到当贝,许多人首先想到的便是“大屏”这一关键词。 这一点并不难理解。从服务超两亿用户的软件生态,到“每卖出两台激光投影,就有一台是当贝”的市场份额,这家智能科技企业在客厅场景中的影响力已十分稳固。然而,当贝的愿景显然不止局限于客厅。近期,当贝正式发布了其首款AI耳机——当贝耳机 Air 1。这绝非

万元起 杜卡迪全新揽途Multistrada V4 Rally上市
业界动态 · 2026-07-05

万元起 杜卡迪全新揽途Multistrada V4 Rally上市

杜卡迪全新揽途MultistradaV4Rally上市,起售价23 8万元。搭载V4Grandturismo发动机,标配自动降低装置、Skyhook悬挂及前后雷达,兼顾长途探险与运动性能。翡翠绿版限量10台,售价24 1万元。

美团CEO王兴自公司成立从未卖股且无计划
业界动态 · 2026-07-05

美团CEO王兴自公司成立从未卖股且无计划

在6月26日的美团股东大会上,CEO王兴放出了一个相当直白的表态:从公司成立至今,他个人手里的股票一股都没卖过,而且未来也没有任何减持计划。这话放在当前的市场环境下,分量不言而喻。 王兴还专门解释了去年那笔备受关注的股票转让——2024年他将个人持股的10%捐给了一家基金会。他强调,这完全是出于公益

芯明与钧舵机器人正式启动战略合作 深度融合生态共进
业界动态 · 2026-07-05

芯明与钧舵机器人正式启动战略合作 深度融合生态共进

1月22日,钧舵机器人与芯明智能等企业签署战略合作协议,旨在从芯片级到系统级融合机械结构、感知与控制算法,打造低成本、高灵活性的智能末端执行器,推动具身智能生态共建。