首页 游戏 软件 资讯 排行榜 专题
首页
AI
伯克利罗剑岚谈机器人革命:真实世界中的范式突破

伯克利罗剑岚谈机器人革命:真实世界中的范式突破

热心网友
29
转载
2026-05-16

近日,伯克利大学Sergey Levine团队的一项强化学习新工作,在具身智能圈子里激起了不小的波澜。这项名为HIL-SERL的研究,似乎正在打破一个长久以来的成见:强化学习(RL)只能活在仿真环境里。

根据公布的实验结果,基于这套框架,研究者可以直接在现实世界中,训练出基于视觉的通用机器人操作策略。更令人印象深刻的是效率:机器人仅需经过1到2.5小时的训练,就能娴熟地完成主板组装、仪表盘操作乃至正时皮带安装这类精密任务。成功率?清一色的100%。

从组装家具、颠勺煎蛋,到鞭打积木、插入U盘,这些任务对机器人而言已不在话下。即便过程中施加人为干扰,机器人依然能稳定、灵活地调整并最终完成任务。这无疑给“强化学习难以落地现实世界”的论调,来了一次有力的回应。

过去,强化学习常因样本效率低、仿真与现实差距大而被诟病,许多研究者认为它无法解决真机上的复杂问题。但SERL系列的工作证明,真机RL并非空中楼阁。它不仅能在现实世界中应用,而且在灵巧操作任务上表现卓越,其性能甚至大幅超越了模仿学习方法,平均节拍快了1.8倍。可以说,这是真机RL机器人领域一个具有标志性意义的进展。而推动这一进展的核心人物,是中国青年科学家、伯克利在读博士后罗剑岚。

今年年初,罗剑岚团队提出的高效机器人强化学习套件SERL,已经能让机器人在20分钟内学会装配电路板,成功率同样达到100%。最新的HIL-SERL是其升级版,关键区别在于引入了人类的“纠正”机制。SERL仅依赖人类示范,而HIL-SERL则结合了人类的示范和实时纠正来训练策略。这一看似微小的调整,对于让智能体从错误中学习、提升在陌生任务上的性能至关重要。HIL-SERL更是瞄准了双臂协调、动态操作等相对更困难的任务范畴。

成果的效果超出了罗剑岚与其导师Sergey Levine的预期。看到实验结果后,Sergey对罗剑岚说的第一句话是:“You really made RL work.”(你真的让强化学习跑起来了。)

回溯罗剑岚的科研路径,他在机器人真机RL方向上的坚持已近十年。2015年,他进入伯克利机械工程系攻读机器人控制博士学位,同时开始在Pieter Abbeel指导下探索Robotics与AI的结合。从博士二年级的第一个强化学习项目起,他的目标就非常明确:让强化学习在真实世界中落地。

这期间,强化学习领域经历了从AlphaGo带来的热潮到逐渐遇冷,甚至被部分行业声音唱衰的过程。但罗剑岚始终相信,攻克机器人的真机RL是一个长期命题,一旦突破,将对机器人学习产生范式级的变革。2020年博士毕业后,他加入谷歌,在DeepMind、Everyday Robot等多个部门工作,系统学习了从底层动力学到上层控制的机器人全栈知识,并持续探索与强化学习的结合。

2022年,随着参与的项目孵化为工业机器人公司Intrinsic,罗剑岚选择重返伯克利,加入Sergey Levine团队从事博士后研究。SERL系列成果,正是他多年来在真机RL道路上探索所结出的最具突破性的果实。

重返学术

在伯克利机械系读博期间,罗剑岚是如何切入深度强化学习领域的?他回忆道,机械系的控制方向与强化学习存在天然的对偶关系,例如控制论中的HJB方程与强化学习中的Bellman备份,原理都是动态规划。这种跨领域的视角,反而让他能更全面地看待问题。

真正的转折点发生在2017年暑假。当时他在西门子伯克利分部参与了一个项目,尝试将深度强化学习应用于工业生产,解决传统机器人难以完成的高精度装配任务。具体任务是操作3D打印的齿轮,将其安装到一个可活动的机械装置上。这要求算法不仅能规划,还需实时响应外部变化。这个项目成为他在强化学习领域的起点,也开启了他与Pieter Abbeel、Sergey Levine的合作。

博士毕业后在谷歌的两年工业界经历,为何又促使他重返学术界?罗剑岚坦言这有一定偶然性。在谷歌期间,他积累了扎实的机器人系统知识,参与的项目专注于将AI应用于提升工业生产力。当项目孵化为Intrinsic后,他萌生了回国寻找教职的想法,计划先做一段兼职博士后作为过渡,于是联系了当时也在谷歌兼职的Sergey Levine。

当时的合作非常高效。Sergey团队训练机器人完成简单操作需要数十小时,而罗剑岚的工作在插拔等精密工业任务上达到了100%成功率,且耗时极短。这让他们意识到,团队需要既懂机器人系统又精通学习算法的人才。Sergey热情邀请他全职加入团队进行两年博士后研究,双方能力互补且合作愉快,罗剑岚便接受了邀请。

回到伯克利后,罗剑岚还深度参与了Open X-Embodiment数据集的创建。这个最初不足10人的探索项目,由伯克利、斯坦福与谷歌合作发起。罗剑岚负责其中主要的线缆任务(Cable Routing)。在验证可行性后,团队决定扩大规模,联合学术界与产业界的力量,最终汇集了超过200位合作者,旨在改变以往机器人数据集分散的局面。

在发布HIL-SERL之前,团队于今年2月率先推出了SERL。这个想法的诞生,源于一个清晰的痛点:强化学习虽然潜力巨大,但门槛高、流程易出错且不稳定,导致许多人放弃了在真实世界训练策略的尝试。因此,罗剑岚萌生了一个想法:为社区提供一个开源、端到端的解决方案,包含强化学习环境和机器人控制器,让研究者能像使用仿真器训练机器狗一样,便捷地应用于真机训练。

此前在谷歌的工作,以及2022年与Sergey的合作,为SERL奠定了基础。2023年6月,罗剑岚带领团队,联合斯坦福、华盛顿大学、谷歌等机构,正式推进SERL项目,并进一步完善了先前的工作。SERL首次实现了仅通过真实世界视觉信息,在20分钟内完成精密装配策略的学习。在PCB板组装、电缆布线等复杂任务中,每个策略平均训练25到50分钟,成功率接近完美,且在受干扰时表现出优异的鲁棒性和自校正能力。

整个研究过程充满探索性。团队在实验中发现了几个关键设计点,使得整个系统性能出现飞跃,连他们自己都感到惊讶。SERL发布后,迅速被北京大学、波士顿动力AI研究院、谷歌等海内外机构采纳使用。

现实世界的拥护者

罗剑岚无疑是现实世界与真实数据的坚定拥护者。早在2017年,当大多数强化学习研究还集中在MuJoCo等仿真环境中刷榜时,他就察觉到这些算法性能榜单与现实机器人控制问题存在脱节。采样效率低下一直是强化学习的软肋,阻碍了其在真机上的广泛应用。

仿真对于移动控制这类问题确实有效,但这并非魔法。仿真是基于物理模型构建的,本质上是基于模型的控制,只是提供了更好的计算工具。移动控制模型相对简单,不确定性有限,传统的模型预测控制(MPC)和鲁棒控制也能很好解决,例如现代客机的控制器设计。

然而,操作任务的挑战截然不同。机械臂本体的模型是确定的,真正的难点在于外部环境无限的变化和复杂的物理交互,如接触力学和柔性物体变形,其复杂度近乎无穷。因此,在真实环境中训练变得必要。尽管存在一些成功的仿真学习系统,但从中学到的策略无法超越仿真器本身的能力上限。仿真器最终会成为策略学习的瓶颈。

不能因为用仿真解决了一个相对简单的问题,就认为它能解决另一个困难得多的问题。如果因此不去直面困难问题的本质,反而被困在“鞍点”,绕着圈子去构建困难问题的近似替代品来求解,从长远看,将失去找到全局最优解的能力。仿真环境与现实世界,尤其在涉及视觉输入时,存在显著差异。因此,罗剑岚的研究重点始终放在设计高样本效率的算法,并确保其与硬件、控制器无缝对接。例如,在视觉输入条件下,能在20分钟内在现实世界学会一个复杂策略,而其他方法对此无能为力。

他的导师Sergey Levine同样是真实数据的支持者。罗剑岚回忆,一次徒步聊天中,他们讨论:如果有100亿美元,是建造最顶尖的仿真器,还是收集最大的数据集?两人的答案完全一致:数据集。

这条研究主线始于更早。在与西门子的合作项目中尝试应用强化学习失败后,罗剑岚就决心要弄明白它为何行不通。从2017年起,他便沿着这条主线持续探索。这个过程花费了很长时间,但似乎也鲜有人比他更快取得突破,因为许多人在尝试一两次失败后便放弃了。

过去的主流观点认为,在现实世界应用强化学习并非良策,因为它要求算法与硬件、控制器达到极佳的配合,整个系统才能良好运行。而HIL-SERL证明,系统能在1-2小时内,利用视觉输入,在一系列工业生产和灵巧操作任务上取得100%的成功率。

当前依赖仿真的一个主要论点是真实机器人数据难以获取,仿真可以瞬间生成海量数据。但没有人会否认,如果有真实数据,最有价值的依然是真实数据。问题的本质或许在于时间尺度。想象十年后,当数以千万计的机器人部署在真实世界中,持续分享着物理交互数据,今天的许多困局和争论或许将不复存在。

现有的数据规模和机器人部署量,尚不足以让我们得出确切的科学结论,因此才呈现百家争鸣的局面。可以预见,谁率先将上千台人形机器人部署到工厂中,这些24小时不间断传回的数据,就足以催生新的范式和科学结论。从这些半封闭空间的问题入手,一旦对问题有了更深理解,其方法论才能进一步延伸到无约束的开放空间。作为科学家,需要关注五年或十年后的技术图景,解决那些当前无法实现但未来影响深远的基础科学问题。

强化学习之于具身智能

随着大模型的兴起,强化学习在机器人学习领域的热度似乎有所冷却。罗剑岚观察到了这一趋势的转变:如果说2016-2021年的主线是以伯克利为代表的强化学习,那么2021年后,收集数据与大模型结合成为了新潮流,例如谷歌的RT系列。而当前的趋势是大模型持续火热,强化学习正在强势复苏,二者走向结合——大模型实现初步50-60%成功率的策略,再由强化学习算法逐步优化至100%。

尽管他也从事大模型研究,但他认为自己的代表作和研究重心仍是强化学习。因为HIL-SERL目前实现的是100%的成功率,且周期更短。如果局限于大模型,无论收集多少数据,人与机器人的观察视角始终存在差异。人类拥有记忆、思维和意识,机器人模仿人类行为难免存在缺陷。理论上,机器人的行为无法100%完美复刻人类。那么如何逼近极限?这就需要强化学习。就像人类学骑自行车,观看教学或听从指导固然有用,但要真正掌握,必须亲自尝试、经历失败。

一个合理的预测是:当前大规模采用模仿学习的创业公司,在经历实践、摸清痛点之后,明年起很可能转向利用强化学习来优化成功率、节拍数和系统鲁棒性。

那么,强化学习在机器人学习或具身智能中究竟扮演何种角色?从根本上说,机器人学习必须与环境互动,从环境中获得反馈,并据此调整策略以提升成功率——这是一个无法绕开的逻辑闭环。与大模型不同,物理世界的机器人学习是一个复杂系统,涉及多维、高维数据,实现难度大,可一旦成功,便能超越人类,成为超级系统。例如,人类需要10秒完成的任务,机器人通过多步推理优化,可能只需5秒。这是一个非常强大的工具,我们仍在探索如何有效运用它,但可以肯定,它将是具身智能不可或缺的一部分。

有趣的是,在与机器人领域专家交流时发现,他们更关注基础模型完成现实操作任务的成功率。50-60%的成功率可能让他们兴趣索然,但得知能达到100%时,便会强烈好奇其中的奥秘。正如Rich Sutton的“苦涩教训”所言,历史表明,学习和搜索是两种可以无限扩展的方法。模仿学习可以告诉我们如何从数据中提取特征,但若没有搜索或优化(即强化学习),它便无法突破数据本身的局限,从而以新方式解决新问题。

中国优势:高质量、低价格

面对当前日益火热的具身智能趋势,罗剑岚坦言此前并未预料到,甚至开玩笑说机器人学习曾是个“自嗨”的小圈子,如今第一次感觉自己站到了主流之中。

他非常认可中国在供应链方面的优势。实际上,许多机器人的瓶颈在于硬件。当硬件做好后,软件开发会轻松很多。硬件与软件必须协同迭代,而非在较差的硬件上艰难开发算法。

提到“性价比”,人们常下意识联想到“平替”和质量妥协。但如今,中国在全球产业链中的作用远不止降低成本。例如,波士顿动力的机器狗定价高达5万美元,长期以来无人打破,而中国的宇树科技做到了,并且不是以降低质量为代价。中国作为拥有完整产业链的工业国家,正在重新定义产品价值和定价体系。目标不是制造廉价商品,而是凭借全产业链优势,重新教育和定义市场,掌握定价权。

谈及未来计划,罗剑岚表示,出国之初便想着回国,从未打算长期留在海外。在他看来,在学校从事从0到1的开创性科研,即使需要坐长时间的“冷板凳”,其长远价值是巨大的。人生短暂,实现重大突破的机会寥寥无几,即便错过,至少也曾全力尝试过。

他认为,突破性的原创研究若能转化为实际应用,将创造巨大的社会价值。伯克利和斯坦福的成功,离不开硅谷周边的创业生态。机器人是一门与产业紧密结合的实用科学,能够将科研成果从1扩展到100,实现产业化。在这方面,他非常钦佩李泽湘老师。李老师参与创立的大疆,不仅是一家价值数百亿美元的公司,更重要的是在09-10年那个时间点,证明了源自中国的硬科技创新能够成功,这彻底改变了中国科技的历史轨迹,其意义远超经济价值本身。

Khosla Ventures创始人Vinod Khosla有句名言:“创新从不发生在一个系统的核心,它永远发生在系统的边缘。”系统的核心部分有其既得利益,缺乏碘伏自我进行创新的动力。而在系统边缘,一个好的想法被尝试,经历失败后再不断尝试,不确定性逐渐降低,成功概率随之增大。如果这个想法足够重要,就会催生碘伏性创新。

历次科技革命,很少由市值万亿的大公司引领;重大的科学发现,也罕有是科学家临近退休时做出的。汪滔创业时挤在深圳十几平米的小屋里,按今天的标准可谓“没有资源”。但大疆的成功,激励着中国的年轻人去创造下一个、下百个大疆。

接下来,罗剑岚的关注点将放在通用高性能机器人,尤其是在工业生产领域。尽管现代汽车工厂的自动化水平很高,但仍有大量工作需要人工完成,因为当前的机器人还无法灵活处理多变的任务。强化学习等技术将很快应用于这些领域,改变&现有生产模式。例如,特斯拉和富士康等公司已开始使用机械臂进行柔性生产,以适应不断变化的需求。这种生产模式的变革正在全球发生,不仅能提升效率,也能解放人类的创造力。

全球制造业产值巨大,但自动化比例仍然偏低。如果通过机器人技术提升自动化水平,不仅可以优化人力成本,更能释放人类生产力,让人类有更多机会去探索和创新。这种变革已在一些先进工厂中体现,例如现代汽车在新加坡的新工厂,采用更灵活的生产单元模型取代传统流水线,使生产更加灵活高效。

来源:https://www.leiphone.com/category/ai/w5ybJ9rvLSroaVbl.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

伯克利罗剑岚谈机器人革命:真实世界中的范式突破
AI
伯克利罗剑岚谈机器人革命:真实世界中的范式突破

伯克利团队研发的HIL-SERL强化学习框架,成功在现实世界中训练机器人完成主板组装等精密操作,仅需1到2 5小时训练,成功率即达100%。该研究突破了强化学习难以落地真机的传统认知,性能显著超越模仿学习方法,标志着真机强化学习领域的重要进展。

热心网友
05.16
上海AI实验室首创多视图强化学习训练法:让AI画师从单次学习进阶到多角度审视
AI
上海AI实验室首创多视图强化学习训练法:让AI画师从单次学习进阶到多角度审视

2026年3月,一项由上海AI实验室、上海交通大学及南洋理工大学等顶尖科研机构联合完成的研究,在计算机视觉与生成式AI领域取得了突破性进展。这篇发布于arXiv平台的论文(编号:arXiv:2603 12648v1),首次系统性地攻克了AI图像生成模型训练中的核心难题——“单一视角评判”瓶颈,并开创

热心网友
05.14
哈工大团队革新强化学习:AI导师边学边教告别盲目试错
AI
哈工大团队革新强化学习:AI导师边学边教告别盲目试错

这项由哈尔滨工业大学与小红书公司联合开展的研究,于2026年3月发表在arXiv预印本平台,论文编号为arXiv:2603 04597v1。对技术细节感兴趣的读者,可以通过这个编号查阅全文。 想象一下初学者如何掌握一项新技能:一位优秀的导师不仅会在学生犯错时指出问题,还会分享其他同学的成功经验和常见

热心网友
05.14
强化学习如何改变AI视觉推理马里兰大学研究揭秘
AI
强化学习如何改变AI视觉推理马里兰大学研究揭秘

这项由马里兰大学与阿联酋人工智能大学合作完成的研究,已于2026年2月发布在预印本平台arXiv上,论文编号为arXiv:2602 12395v1。它为理解AI如何“看”与“思考”提供了全新的视角。 如今,能够同时处理图像和语言的视觉语言模型正飞速发展。训练这类AI,就像教导一个孩子既要看懂图画又要

热心网友
05.14
强化学习在AI技术中的核心作用与应用价值解析
业界动态
强化学习在AI技术中的核心作用与应用价值解析

在人工智能技术日新月异的今天,强化学习作为一种核心的机器学习范式,正持续推动着AI向更高阶的智能水平演进。其核心在于,智能体通过与环境的持续交互与试错,自主习得最优的行动策略。那么,强化学习究竟在AI技术体系中扮演着哪些至关重要的角色?它又是如何赋能机器,在复杂多变的环境中做出更优决策的呢? 强化学

热心网友
05.13

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

问界M9保值率80.4%夺冠 2026年4月纯电车型保值榜
业界动态
问界M9保值率80.4%夺冠 2026年4月纯电车型保值榜

近日,中国汽车流通协会联合精真估发布了《2026年4月纯电动车型一年车龄保值率排行榜》。这份数据对于正在选购新能源车的消费者具有重要参考价值,能帮助大家更清晰地了解当前热门电动车的残值表现。 该榜单统计的是车龄满一年的纯电动车型。位居榜首的是问界M9,其一年保值率高达80 4%。这一夺冠成绩含金量十

热心网友
05.16
追觅Aurora Lux系列手机发布 29款奢华设计全解析
业界动态
追觅Aurora Lux系列手机发布 29款奢华设计全解析

科技行业近期迎来一场备受瞩目的创新盛宴。以智能清洁机器人闻名的追觅科技(Dreame),在旧金山隆重举办了“Dreame Next 2026”未来愿景发布会。活动不仅前瞻性地展示了涵盖智能手机、智能穿戴乃至概念电动车的全系列产品,更邀请到苹果联合创始人史蒂夫·沃兹尼亚克亲临助阵。这场为期四天的盛会,

热心网友
05.16
SpaceX最快下周披露招股书 6月初启动全球路演计划
AI
SpaceX最快下周披露招股书 6月初启动全球路演计划

SpaceX最快下周披露招股书,6月初启动全球路演,估值或达1 75万亿美元,募资规模有望创纪录。公司以垂直整合与成本控制为核心优势,布局商业航天、AI基础设施与卫星互联网,其“太空数据中心”构想融合太空太阳能与AI算力,开辟新赛道。此次IPO或引发科技板块资金结构性变动,标志资本正加速拥抱太空与AI融。

热心网友
05.16
NVIDIA扩展机器人微服务库加速人形机器人发展
AI
NVIDIA扩展机器人微服务库加速人形机器人发展

NVIDIA在SIGGRAPH上宣布扩展其微服务库,以加速人形机器人开发。其核心是将生成式AI深度集成至OpenUSD语言体系,推出相关模型与NIM微服务,从而提升数字孪生与机器人工作流效率。公司还开放了机器人技术栈,并联合合作伙伴推动OpenUSD的工业应用,为开发者提供从仿真到部署的端到端平台支持。

热心网友
05.16
OKX交易所安全性如何?资金风险与监管深度解析
web3.0
OKX交易所安全性如何?资金风险与监管深度解析

OKX作为全球领先的数字资产交易平台,其风险主要来源于市场波动、技术安全与合规环境。平台通过多重安全机制、资产储备证明和严格的合规流程来管理风险。用户需理解加密货币的高波动性本质,并采取自主保管资产、启用安全功能等策略,以在参与Web3生态时更好地保护自身权益。

热心网友
05.16