云蝶科技科学家受邀CCMAS 2026：强化学习赋能具身智能落地

时间：2026-07-05 12:44

云蝶科技科学家赵梦辰在CCMAS2026上指出，具身智能从实验室走向真实场景的关键在于环境反馈与多智能体协同中的持续学习。他聚焦强化学习信用分配难题，提出以环境增强的世界模型为核心，结合多智能体协同与真机强化学习，构建面向真实场景的具身智能训练闭环。

当机器人走进酒店、物业与康养体检等真实服务场景时，真正的技术壁垒并非仅仅是“能执行动作”，而是在环境反馈与多智能体协作中持续进化的能力。

强化学习让具身智能走向真实世界：云蝶科技科学家受邀出席CCMAS 2026

具身智能领域的竞争，正从“单机动作展示”全面转向“真实环境中的持续学习与多智能体协同”。这不再是简单的Demo比拼，而是真正考验技术深度的阶段。

6月27日至28日，第四届CCF多智能体系统会议（CCMAS 2026）在南京大学苏州校区成功举办。大会邀请了南洋理工大学Stefano V. Albrecht教授、字节跳动Seed Robotics首席科学家李航、哈尔滨工业大学（深圳）张民教授、清华大学朱军教授等学界与产业界权威人士，围绕多智能体基础模型、机器人基础模型、世界模型与智能体强化学习等前沿方向展开深度研讨。

云蝶科技科学家、华南理工大学副教授赵梦辰受邀出席，并以《智能体强化学习中的信用分配机制》为题发表专题报告。他的分享揭示了具身智能从实验室走向真实场景时，一个常被忽视却至关重要的技术关卡。

01 真正的难点，远不止让机器人“动起来”

随着大模型进入Agentic RL阶段，强化学习正成为智能体能力进化的关键路径。然而，与传统强化学习不同，大模型智能体通过连续生成token来完成规划与决策：一个任务最终成功，究竟应归因于哪一步推理？哪一次工具调用？哪一个动作选择？这正是信用分配机制要解决的核心问题。

对于具身智能来说，这个问题更加复杂。机器人面对的并非静态指令，而是持续变化的真实环境；一次任务往往涉及感知、规划、操作、环境反馈以及多机器人协作。只有将最终结果准确回溯到关键决策，模型才能从成功与失败中持续学习，强化学习后训练才可能真正进入真机闭环。这就像教导一个团队完成复杂任务，你无法确定是哪位成员、哪一步操作促成了成功——如果奖励无法精准分配，团队就无法高效进化。

赵梦辰在报告中指出，以GRPO为代表的Agentic RL算法虽已成为优化大模型智能体策略的主流方法，但大模型智能体决策的根本范式是token生成，这给Agentic RL的信用分配带来了极大挑战。他从信用分配视角系统拆解了前沿Agentic RL方法，深入解释了信用分配难题的成因，并介绍了其课题组与云蝶科技在智能体强化学习、具身大脑及多智能体协同方向的研究进展。这些研究共同指向一个目标：让智能体学会从结果中精准提取经验，而非盲目试错。

02 一场报告，折射云蝶的核心技术路线

云蝶并不将具身智能理解为“给机器人接入一个大模型”。在这个行业中，太多企业把精力浪费在更换模型、堆砌参数上，而忽略了最根本的问题——机器人、环境与任务，能否共同纳入一个可学习、可反馈、可进化的完整系统。

在酒店、物业、康养体检等真实服务场景中，机器人从来不是孤立工作的。空间布局、门禁与电梯等设施、服务流程、人员状态以及其他机器人，都会影响任务执行。场景越真实，变量越多，传统的“感知-规划-执行”流水线就越容易在某个环节断裂。

云蝶的技术路线，是以环境增强的世界模型为核心，让环境智能体与机器人智能体协同建模，并通过多智能体强化学习完成策略优化与能力进化。在这一框架中，世界模型负责理解环境、预测动作后果；多智能体强化学习负责处理协作决策与信用分配；真机部署则不断产生高价值反馈，形成“场景数据—模型训练—策略优化—真实验证”的闭环。

这意味着，云蝶要构建的并非单一机器人产品，而是一套面向真实场景的具身智能训练与协同进化平台：把场景变成训练基础设施，把每一次真实任务变成模型继续进化的数据资产。这不仅是技术路线的选择，更是对行业趋势的深刻预判。

03 从多智能体学术谱系，到真实场景产业闭环

赵梦辰博士毕业于南洋理工大学计算机科学与工程学院，师从AAAI Fellow、智能体领域世界知名专家安波教授，并获南洋理工大学计算机学院杰出博士论文奖。沿着这一学术谱系，赵梦辰长期聚焦强化学习、智能体与多智能体系统研究，现任华南理工大学软件学院副教授、大数据与智能机器人教育部重点实验室核心成员、CCF多个专委会执行委员。他长期致力于强化学习、多智能体系统与大模型的研究与落地工作，已在ICML、NeurIPS、ICLR等国际顶级人工智能会议和期刊发表论文40余篇，并主持多项国家级及省部级重点科研项目。

对云蝶而言，科学家团队的价值并非停留在学术背书。赵梦辰及其课题组直接参与了具身大脑、多智能体协同、强化学习后训练等核心能力建设，并与真实场景中的工程验证紧密结合。学术前沿与产业落地之间，从来不是单向的输出关系——而是双向的迭代与反馈。

此次在CCMAS 2026进行前沿分享，释放出一个更清晰的信号：云蝶正在将顶尖科研能力、真实B端场景和可持续数据闭环系统性地连接起来。当行业从“机器人能否完成一个Demo”进入“机器人能否在真实世界持续进化”的阶段，环境理解、多智能体协同与真机强化学习将成为决定规模化落地的关键。云蝶希望成为这一基础设施的构建者，让机器人在真实场景中学会协作、积累经验，并不断迈向更强的泛化能力。

来源：https://www.ithome.com/0/970/693.htm

具身智能