香港大学李弘扬谈2025具身智能闭环系统发展前景

首页

热心网友

转载

2026-05-16

去年年底，一个名为 AgiBot World 的百万真机数据集开源项目正式发布，因其宣称基于全域真实场景、覆盖全能硬件平台并实施全程质量把控，在机器人研究领域激起了不小的波澜。

这个项目的核心目标，是探索一种“硬件加系统”的 AI 次方模式。其背后，是香港大学助理教授李弘扬博士团队与上海智元机器人之间的深度合作，旨在推动机器人超大规模操作任务的前沿研究。

李弘扬博士于2019年在香港中文大学多媒体实验室（MMLab）获得博士学位，研究方向聚焦于计算机视觉与深度学习。2021年，他在上海组建了 OpenDriveLab 团队，将研究重心转向具身智能与自动驾驶的交叉领域。他的学术成果颇丰，在 CVPR、ICCV、NeurIPS、RSS 等顶级会议期刊上发表了三十余篇论文，并多次担任会议领域主席。其团队提出的端到端自动驾驶算法 UniAD，更是荣获了 CVPR 2023 的最佳论文奖。

从博士毕业到2023年，李弘扬的研究主线一直是端到端自动驾驶算法。但自去年初开始，他的目光更多地投向了机器人方向。在他看来，这两个领域存在大量可迁移的经验：它们都由感知、预测和规划控制构成，并且都涉及与环境的交互，从识别到执行。其中最关键的一个探索点是：自动驾驶中成功的端到端训练范式，能否被复制到机器人任务中？

到了2024年第二季度，团队开始系统性地论证如何在具身智能中验证 Scaling Law（规模定律）。与智元机器人等团队合作的 AgiBot World 项目，也正是在这一阶段启动。作为一个百万真机规模的高质量标注数据集，AgiBot World 的特点是物理形态统一，这区别于简单堆砌不同子数据集的做法；同时，它在灵巧手操作、视触觉多模态信号融合以及多机协同三个方面，展现出了独特优势。

基于这些特质，AgiBot World 被认为向具身智能的两大目标更近了一步：一是实现真正的智能化，二是为验证 Scaling Law 提供定向标尺。李弘扬特别强调：“问题的关键不在于堆砌百万台真机或消耗海量 GPU 算力，而是要证明数据的多样性比单纯的数据量更重要。同时，我们也想探究，是否能用较小规模的数据（例如30万条）就达到特定性能，从而实现降本增效。”

该数据集还有一个更宏大的愿景。其全量版本计划于2025年3月推出，并将在 CVPR、IROS 等顶级会议上举办相关挑战赛。通过数据共享，推动产业界和学术界共同攻克有价值的难题，最终目标是促成具身智能领域的“ImageNet 时刻”，建立一个共用的基准。

展望2025年，李弘扬团队的核心工作是探索如何构建真正具有智能的具身系统，让机器人能够适应各种环境、学习各类新任务，并能从自身行动中获得反馈并进行反思。

实现这样的人工智能具身系统，关键在于模型需具备三种核心能力：自适应环境变化、能够持续学习、并会进行行动反思。

自动驾驶与具身智能

AI 科技评论：博士毕业后，您有几年时间是专注在端到端自动驾驶的算法研究上。为什么会转到机器人赛道？您对具身智能领域开始感兴趣的契机是什么？

自2019年博士毕业以来，我的研究主线始终围绕具身智能展开。早期我们更专注于端到端自动驾驶方向，并在2023年6月提出了原创性的 UniAD 方案，该工作获得了当年 CVPR 的最佳论文。同年12月，特斯拉的 FSD V12 开始全面推广，到2024年，端到端范式已在行业内广泛铺开。可以说，自动驾驶自此进入了以工业化落地和企业级量产验证为核心挑战的“下半场”。

团队从2023年下半年开始，将更多精力向机器人方向倾斜。这背后有两个主要原因：其一，自动驾驶和机器人在技术栈上高度相似，都涉及感知、预测、规控，并完成从环境识别到动作执行的闭环。我们最关注的是，端到端的训练范式能否成功迁移到机器人任务中。其二，随着2023、2024年 OpenAI、特斯拉等公司在机器人领域取得一系列创新突破，在 AIGC 与环境感知技术成熟后，技术发展的焦点自然延伸到了物理交互与执行层面。将海量数据训练范式与大模型技术引入传统机器人领域，已成为学术界的前沿与产业界的共识。

AI 科技评论：在具身智能方向，您接触的第一个相关工作是什么？这个赛道有哪些研究工作、研究问题让您感兴趣？主要想解决哪些问题？

团队近期一项重要工作是2024年7月在 RSS 上发表的，主要研究如何通过视觉预训练来提升机器人操作能力。在大数据背景下，以预训练作为切入点是一条很自然的路径。在这个领域，我主要关注三个核心问题：首先是泛化能力，即如何让机器人在不同场景和任务中都能良好适应；其次是智能性，这不仅指完成“拿起杯子”这类简单任务，更要求具备闭环反馈和错误纠正的“思考”能力；最后是高效性，当前大模型不仅在自动驾驶部署中面临挑战，在机械臂等设备上同样存在如何实现高效、轻量化部署的问题。

AI 科技评论：UniAD 项目对于您之后的工作有没有带来哪些启发？

UniAD 将自动驾驶中的感知、预测和规控整合到一个端到端框架中，这带来了两点关键启发。

第一是全局优化能力。通过对整个神经网络进行联合调优，并以最终的规划指标为核心目标，可以有效弥补传统模块化 pipeline 中各环节独立运作造成的信息损失。在统一网络中，模块间传递的是学习到的丰富特征，而非简化的中间结果（如边界框或轨迹），从而实现了整体性能的优化。我们希望能将这一经验应用于机器人领域，因为传统机器人研究中，从粗糙的感知表达再到动作执行，同样存在类似的信息损耗问题。

第二是海量数据的应用潜力。在 UniAD 中，轨迹数据可以一次性大规模采集，从而充分发挥 Scaling Law 的优势。在机器人领域，我们想探索能否复制这一经验：引入海量数据后，算法性能是线性增长、指数爆发还是最终遇到瓶颈？数据量的增加能否真正带来泛化能力的质变？我们计划沿着 UniAD 的思路，特别是数据驱动的机器人操作研究方向，深入探究全局优化与海量数据在机器人领域的应用潜力。

AI 科技评论：您从自动驾驶转到机器人，会不会觉得有什么困难之处？

从算法角度看，自动驾驶的输出自由度相对较低，通常只是油门和方向盘的几个控制量。而在机器人领域，任务的自由度可以灵活定义，例如灵巧手可能有6、12甚至20个自由度，导致解空间异常复杂。不过，机器人面对的场景变化通常不如自动驾驶丰富，主要集中在室内导航、工业巡检等特定领域。我们在迁移自动驾驶的全局优化经验时发现，需要对网络结构和训练范式进行较大改造。

另一方面，数据采集的难度显著增加。自动驾驶中，车辆形态统一，部署几百台同型号车辆就能采集数百万条数据。而当前机器人硬件形态远未收敛，不同设备差异很大，数据采集面临更大挑战。为此，我们提出了“数据金字塔”策略，即结合仿真数据、网络数据、通用真机数据以及针对特定任务的少量真机特殊场景数据，以期系统性地解决数据问题。

AI 科技评论：现在业界有说法认为，自动驾驶解决的是下肢问题，而机器人要解决的是上肢问题、典型任务是操作。您认同这个说法吗？

我部分认同这一观点。自动驾驶的“下肢”问题主要解决轨迹规划和动作执行，因为其感知问题已相对成熟。对机器人而言，针对运动控制（如四足机器人）的研究也已比较深入，各类仿生机器人在多样场景中表现稳定。但“上肢”问题，主要涉及抓取与精细操作，其中待研究的问题和可优化的思路非常多。

AI 科技评论：自动驾驶视觉算法与机器人算法的不同之处体现在什么地方？

当前自动驾驶算法的感知部分已经解决得相当不错，今年的研究核心在于，如何将规控信号作为先验知识更好地整合进端到端体系，以充分发挥感知算法的优势。目前自动驾驶系统中，感知模块占主导，而规划与控制部分相对缺乏基于学习的方法，导致二者整合存在间隙。

机器人方法的不同在于其解空间非常复杂、自由度很高。在这种情况下，通常会采用像强化学习这样能够进行整体联调优化的方法。但强化学习本身存在样本效率低的问题。举例来说，当将强化学习应用于人形机器人的全局优化时，就会面临奖励稀疏、训练收敛困难等诸多挑战。

打造 ImageNet 时刻

AI 科技评论：不久前您参与的百万真机数据集 AgiBot World 发布，你们是从什么时候开始做的？

AgiBot World 是我们与智元机器人合作推出的百万真机数据集。具身智能包含算法、数据、硬件、应用场景四大要素。尽管学术界在算法上投入很多，但普遍认为算法性能的上限取决于数据，因此数据的重要性日益凸显，这也是我们团队工作的出发点之一。这个项目在2024年第二季度就开始调研论证了。当时，我们希望与那些将硬件及应用场景作为重要评估指标的机器人企业共同成长，走访了许多国内机器人公司，最终与智元达成了合作。

AI 科技评论：与 DROID、Open X-Embodiment 等业界知名数据集相比，AgiBot World 的最大亮点、差异化优势是什么？

目前业内已有不少数据集，有点像2010年前计算机视觉领域数据集“百家争鸣”的阶段。在设计 AgiBot World 时，我们着重在三点上进行了创新：

首先是灵巧手。许多现有数据集（包括谷歌的一些数据集）使用的是简单的夹爪。而我们提供了6到12自由度的真实灵巧手数据，为精细操作任务提供了更高的精度和灵活性。

其次是视触觉融合。单纯依靠图像或点云数据难以有效完成某些任务，尤其是在存在视觉遮挡的情况下，比如拧瓶盖或关门。我们设计了融合视觉与触觉的多模态数据采集方案，为这类复杂任务提供了更完整的感知能力。

最后是多机协同。当前许多关于灵巧手、视触觉的研究都是单点突破，在数据集中将所有要素集成并实现多机协同的很少。我们设计了多机协同任务，确保所有机器人连接在统一的中央时间戳上，这克服了许多工程上的难题，包括如何设计高效的硬件同步系统和数据采集系统。

AI 科技评论：你们解决了当前具身智能领域的哪些迫切问题呢？

一是如何实现真正的智能化。如果将具身智能分为L1到L5级别，那么能够解决L2级别的操作任务，就意味着能在有限场景内实现真正的泛化，这有望成为机器人领域的“ImageNet时刻”。这里说的有限场景，包括工业巡检、汽车总装线、居家服务等。例如在叠衣服任务中，无论是大衣、衬衫还是柔软的衣物都能处理；在汽车总装线上，安装轮胎、保险杠、布线等操作都能完成。

其次，我们关注 Scaling Law 的验证。关键不在于堆砌百万真机或算力，而在于探讨百万真机数据能否证明数据多样性比数据规模更重要。我们期望通过这项研究，为后续真正意义上的 Scaling Law 评估提供参考依据。

AI 科技评论：可以分享一下你们采集数据收集的过程吗？真机数据的采集有什么困难？你们又是如何解决的？

数据采集过程参考了亚马逊 SageMaker 的流程。由于任务复杂，首先需要设计任务构型并进行试采；数据量达到预期后，还需考虑高效存储、培训采集人员以及处理采集过程中的反馈问题。

另一方面，我们借鉴了《Human-in-the-Loop Machine Learning》中的理念，从学习角度提升数据质量。在 AgiBot World 项目中，我们不仅采集数据，还制定了详细的问题清单，对流程不规范、步骤缺失等问题进行分类统计。

此外，Human-in-the-Loop 不仅体现在问题反馈上，更关键的是如何评估每条数据的质量。高质量的数据能让研究者在数据集发布后，进行更深入的二次开发。

另外，在采集过程中，我们会有意制造一些干扰。例如，在执行内存条插拔任务时，有意制造背景抖动或内存条位移，以考察算法或采集系统能否通过试错恢复并完成任务。这与强化学习中的负样本和持续学习概念相关。数据采集与算法高度耦合，因此在算法层面存在大量研究空间，这也是我们设计此数据集的初衷之一。

AgiBot World 发布到社区的第一天，才标志着项目的真正起步。我们预留了大量接口，供未来的强化学习、模仿学习、对齐算法等研究使用，目的是确保研究者不会因缺乏合适的数据集而受限。

AI 科技评论：你们的下一步研究计划是怎样的？感觉还有哪些亟需突破的难题？

AgiBot World 是一个大型项目，目前发布的 Alpha 版本包含十万条真机数据。短期计划是扩展到百万真机数据，预计在2025年3月发布。

中期目标，作为研发团队，我们将基于该数据集验证差异化的 Scaling Law，探索如何实现智能化，相关成果预计在今年下半年发布。

长期计划则着眼于未来两三年。我们不仅限于发布数据集，还计划构建生态、举办比赛，让数据集真正被用起来。我们计划在今年10月举办首届 AgiBot World 挑战赛，鼓励研究者基于数据集进行二次开发，并希望将比赛持续举办下去，服务整个社区。

AI 科技评论：NeurIPS 2024 上，Ilya 提出解决大模型训练数据匮乏问题的三大途径之一是合成数据。您怎么看机器人领域中真机数据与合成数据的差别？

真机数据的最大优势是没有 Sim-to-Real（仿真到现实）的鸿沟。我们选择真机数据主要有两个原因：其一，我们团队并非专注于仿真领域；其二，构建合成数据的工作量巨大、周期长，涉及渲染技术、数据资产构建等诸多问题，因此我们直接采用了真机数据。

当前业界普遍抱怨真机数据稀缺，而 AgiBot World 是一个单一构型、可规模化的百万真机数据集。“单一构型”指的是物理形态统一，这与那些将不同子数据集简单堆砌而成的“百万数据集”形成鲜明对比。实际上，跨越不同视角、任务和硬件构型的数据迁移非常困难。AgiBot World 的单一构型扩展策略，类似于在全球范围内用数百万辆同型号的特斯拉汽车采集各类数据。当然，合成数据也非常重要，我们相信仿真数据必定会在最终部署、落地，尤其是处理危险场景时发挥关键作用。

硬件形态待行业收敛

AI 科技评论：你们开源 AgiBot World 的初衷是什么呢？开源能给整个行业带来哪些价值？

首先，我们希望通过开源，打造具身智能领域的“ImageNet 时刻”。当前行业的一个痛点是，A团队提出一套算法，论文中性能显示为80%；B团队提出另一套算法，性能为82%。但由于硬件平台不同，算法难以直接迁移复现，导致性能差异无法客观比较。这并非算法无效，而是缺乏统一的评测基准。因此，我们希望建立类似 ImageNet 的基准，让各类算法能在统一平台上公平对比，从而加速学界和业界发展。

其次，我们希望通过开源，降低高质量真机数据的采集门槛和成本。目前，采集这类数据的成本极高，例如一台配备灵巧手的双臂机器人市场价至少在20万元左右，搭建100台设备成本就高达2000万元。开源 AgiBot World，旨在降低行业门槛，让更多研究团队能够参与进来，共同推动具身智能发展。

AI 科技评论：AgiBot 与机器人操作、世界模型等话题的关系是什么？

一是智元机器人的英文名就是 AgiBot，二是我们想实现迈向 AGI（通用人工智能）的机器人，这是一语双关。“World”则代表我们希望构建一个完整的世界模型，涵盖硬件、系统及 AI 算法生态。这不仅是项目的核心理念，也是最终目标。我们的愿景是通过数据集推动硬件形态逐步收敛，并将其应用于灵巧手、视触觉系统及轮式机器人上。同时，结合系统和生态构建，与行业伙伴共同完善数据集，并进一步通过学术研究和竞赛活动促进整个领域的发展。

AI 科技评论：您认为具身智能领域的模型训练会遵循 Scaling Law 吗？

Scaling Law 是2024年下半年各个团队都在关注的热点问题，今年也必将是工业界和学术界重点研究的课题。其中可以凝练出许多科学问题，例如：数据多样性和数据分布是否遵循某种规律？在有限数据量下，能否通过算法迁移学习获得性能提升？以及投入产出比的考量，例如百万真机数据采集背后的人力、标注、工程及场地成本。

AI 科技评论：除了数据集，您的团队现在还有没有研究具身智能的其他方向？目前主要在研究哪几个具体问题？

我们团队也在研究人形机器人和一些硬件设备。一个重要方向是全身协同控制（Whole Body Control），这是一个涉及全身动作协调与多任务协同的复杂目标。目前，许多炫酷的演示视频虽然吸引人，但往往是通过预设规则或仅展示简单动作（如行走、招手）实现的。而在上半身与其他部位的协同操作上，挑战则大得多。当然，像 Figure 01 或 1X 等公司也展示出了很好的演示效果，在工厂环境中，机器人的全身协同控制已经做得相当不错。

AI 科技评论：您认为除了数据集，当前具身智能行业还有哪些被忽视、但关键问题需要解决？

被忽视的问题主要集中在硬件上。我甚至认为，具身智能的终极发展方向之一在于材料科学。这不仅涉及视触觉等传感器的稳定性，还包括在下一代硬件研发中，对各类传感器形态的前瞻性设计。目前，硬件迭代速度相对缓慢。如果算法无法与硬件深度结合，尤其是在传感器技术、磁感传感器、人造皮肤等方面缺乏突破，机器人将难以完乘人类所能及的复杂任务。因此，仅靠算法优化无法全面推动具身智能的发展。

我也希望更多来自机械工程、材料科学甚至航天航空等领域的学者，能够投入到新一代传感器及相关硬件的研究中。硬件的创新将催生全新的应用场景，这些场景不仅可以赋能机器人，还会吸引更多从事算法创新的科研力量。只有软硬件协同进化，具身智能行业才能真正取得突破性进展。

AI 科技评论：目前你们在硬件方面都和哪些厂商合作？

我们目前使用了来自七到八家不同厂商的设备，这些都属于行业内顶尖的硬件平台。我们希望团队的研究人员能够基于最先进的硬件开展研究，从而推动具身智能领域的前沿发展。

AI 科技评论：现在也有很多人工智能从业者加入具身赛道，您觉得这在短期会给机器人领域带来哪些显著变化呢？

近期我们走访了许多深耕传统机器人领域多年的知名学者。有学者开玩笑说，人工智能领域的从业者正在“抢占”他们的领地。这虽是玩笑，但也反映了行业格局的变化。整体来看，许多 AI 研究者正积极投身具身智能赛道。我一直认为，这并非竞争，而是合作共赢。AI 学者在神经网络等方面经验丰富，而传统机器人学者在硬件设计、系统架构等方面积累深厚、专业能力卓越。这种交汇融合将促使双方相互学习、共同进步。在人工智能技术的加持下，传统机器人行业有望迎来新一轮的变革浪潮。

来源:https://www.leiphone.com/category/ai/4CgaAUn3fTaI63Yh.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：DeepSeek与面壁智能大模型技术路径深度解析下一篇：AI陪伴赛道能否复制泡泡玛特的商业奇迹