陈杰能解析具身智能：世界与心智模型如何赋予AI想象力

首页

热心网友

转载

2026-05-16

近日，一项由马尔奖得主、约翰霍普金斯大学Alan Yuille教授团队主导的研究，在具身智能与人工智能领域引发了广泛关注。这项名为GenEx的创新工作，其核心突破在于为AI系统赋予了“空间想象力”——使智能体能够在自身“想象”生成的三维虚拟环境中进行主动探索与学习，这一方向也获得了李飞飞教授初创公司World Labs的关注。

受人类认知与心智发展机制的启发，GenEx旨在模拟大脑对物理世界的理解与推理过程，以构建更通用、更灵活的人工智能体。具体而言，该系统包含两个紧密耦合的核心模块：一个是能够根据单张图像动态生成可供探索的三维场景的“想象世界生成器”；另一个则是能够在该生成环境中进行交互、并通过模拟完善自身决策策略的“具身智能体”。二者形成一个协同进化的共生系统，使得AI能够以接近人类认知效率的方式进行环境模拟、空间探索与策略学习。

GenEx仅需输入单张RGB图像，即可生成一个完整、三维连贯且可交互的虚拟环境，甚至能进一步转化为沉浸式的360度全景视频。在这种生成式想象能力的驱动下，智能体能够执行复杂的具身任务，包括无目标导向的自由探索和有明确终点的视觉导航。它们利用对物理世界中未观测部分的预测性“心理模拟”来完善环境认知，基于潜在的动作序列推演不同结果，从而做出更优决策。此外，GenEx可扩展至多智能体协作场景：当一个智能体导航至其他智能体所在位置时，它能整合其他智能体“想象”出的环境认知，更新自身的世界模型。

这项研究的核心作者是约翰霍普金斯大学即将毕业的中国博士生陈杰能。

在将研究方向转向世界模型与空间智能之前，陈杰能深耕于医学图像分析领域。他本科毕业于同济大学计算机系，于2020年赴约翰霍普金斯大学攻读博士学位，师从著名学者Alan Yuille教授。此前，他发表了首个将Transformer与U-Net融合的医学图像分割网络TransUNet，该模型已成为领域经典，引用量超过5000次。

自今年起，他的研究重心转向世界模型与空间智能，主要探索基于单张图像生成可交互3D环境的技术，并将此生成世界构建为具身智能体的“心智模型”，以提升智能体的决策能力。从医疗AI到具身智能，陈杰能认为自己已完成了上一阶段的研究使命，“接下来希望探索新的前沿方向，参与更具开创性的基础研究。”

人工智能赋能癌症早筛：从TransUNet到多癌筛查模型

问：您正式读博前发布的TransUNet至今引用量已超5000，当时是如何构思这一创新架构的？

陈杰能：当时我正在从事另一项关于物体边缘语义建模的项目，由此产生了对序列建模的思考。Transformer虽然在全局上下文建模上优势明显，但在捕捉物体边缘等局部精细细节方面存在挑战。2020年底，Transformer在图像分类任务中已证明有效，但其在密集预测任务（如分割）中的潜力尚在探索中。为了解决局部与全局信息融合的问题，我想到结合U-Net的局部特征提取能力与Transformer的全局关系建模优势。从实际效果看，这种组合实现了局部细节还原与长距离依赖建模的平衡，能够有效支持多种视觉任务。

后来，我将TransUNet扩展到3D版本，并进一步应用于多癌种联合筛查。至今，TransUNet仍是一个被广泛采用的基准架构，常见于图像分割模型乃至扩散模型的骨干网络设计中。

问：您是如何进入计算机视觉领域，并决定专注于医学影像AI研究的？

陈杰能：2017年我在慕尼黑工业大学交换期间，选修了由3D视觉学者Daniel Cremers教授讲授的课程。有趣的是，Daniel Cremers曾是我现任导师Alan Yuille的博士后。那门计算机视觉课程偏重几何与理论，让我对前沿科研产生了浓厚兴趣。回国后，我决定投身视觉研究，在同济大学陈广老师的课题组从事车辆检测相关研究。

2019年暑期，我机缘巧合联系上了Alan Yuille教授。他当时正与约翰霍普金斯医院合作开展癌症早筛项目，项目团队中包括像抑癌因子P53发现者这样的顶尖医学专家。他们虽非AI研究者，却敏锐地意识到AI在医疗领域的巨大潜力。这个领域既具备规模化应用前景，又能切实造福大众，这深深吸引我深入医学影像AI的研究。

问：您之后还加入了阿里巴巴达摩院医疗AI团队实习。可以分享一下研发多癌筛查模型CancerUniT的经历吗？

陈杰能：项目负责人吕乐是我在约翰霍普金斯计算机系的学长，他的导师Gregory D. Hager与我的导师本就存在合作，我们相识较早。

当时医疗AI领域的研究大多集中于单一病种，达摩院希望我能参与开发一个多癌种联合筛查系统。具体目标是构建一个AI模型，能够通过一次CT扫描，同步筛查出八种高发癌症并鉴别14种相关亚型。这八种癌症覆盖了中国近80%的癌症患者，发病率和死亡率均位居前列。

医疗AI涵盖众多方向，其中疾病筛查，尤其是针对癌症、阿尔茨海默症等重大疾病的早期筛查，无疑是社会价值最高的领域。癌症因其高负担特性，在我精力有限的情况下，被认定为一个值得优先攻坚的“黄金问题”。解决它如同攀登一座高峰，若能早日攻克，便能惠及无数患者与家庭。我满怀热情，希望贡献自己的力量加速这一进程。在项目推进中，我与合作者共同明确了问题定义，并构建了一个兼具高敏感性与高特异性的基础模型。目前，达摩院正在对我当时开发的多癌模型进行进一步扩展与优化，我期待这系列模型能早日投入实际应用，创造社会价值。

从视觉基础模型到空间智能：研究范式的转变

问：后来您加入字节跳动Seed团队从事视觉基础模型研究，为何做出这一选择？

陈杰能：我的mentor Liang-Chieh Chen在谷歌时就曾邀请我前去实习，但我当时已接受达摩院的邀请，便约定下一年再合作。后来字节成立了核心研发团队Seed，他加入并领导基础研究组，我也随之加入了字节。

2023年，多模态大模型是业界研究焦点。Liang-Chieh Chen在深度学习架构设计方面造诣深厚，尤其在MobileNetv2和DeepLab系列工作上贡献卓著。我希望有机会对大模型的视觉编码器进行一次系统性的重新设计，探索新的架构可能性并锤炼自身技术能力，因此加入了该项目。

问：首次主导视觉编码器架构设计并成功发表ViTamin，您有何体会？

陈杰能：无论是研发过程中还是完成后，感受都非常深刻。

我负责基础架构的设计，需要对多模态大模型中的视觉编码器进行全新规划并探索其扩展规律。由于大模型训练耗费巨量算力，通常只有一次训练机会，因此架构设计必须兼具创新性与稳健性。

我们设计的视觉编码器在ImageNet零样本分类准确率上达到了83%的当时最佳水平，并能高效迁移至多模态大模型中。我们探索出了一条清晰的性能扩展路径。将模型性能推向世界顶尖的过程，充满挑战也带来巨大成就感。

如果将多模态模型比作一个智能体，那么视觉编码器就是其“眼睛”。今年年初，业界普遍认识到大模型中视觉编码器的重要性并开始针对性优化，这让我再次感受到此项工作的价值。

此外，ViTamin最高分的模型参数量仅为4.36亿（不足0.5B），在追求千亿参数的2023年显得非常轻量。在我们所能获取的最佳数据条件下，这个规模已触及扩展规律的极限。有趣的是，从今年开始，高效的小模型也变得非常热门，当前多模态模型为适配终端部署，也普遍采用几百兆级别的视觉编码器。可见，扩展规律最终会收敛到一个效率与性能的最佳平衡点。

问：为何今年会将研究方向从医学影像转向空间智能？您如何理解空间智能的核心？

陈杰能：我相信在工业界与医疗机构的协同推进下，癌症筛查这一关键问题将在未来几年得到有效解决，我此前的工作有助于其规模化落地，算是完成了阶段性使命。现在我希望探索新的前沿领域，而空间智能、具身智能等方向方兴未艾，参与前期探索颇具意义。

我的导师Alan早在1990年就研究过三维物体表面曲率，实验室也长期关注3D视觉，我深受熏陶。今年我开始着手攻克一两个该领域的“黄金问题”，希望推动空间智能与具身智能的发展。

空间智能今年备受关注，它涉及从单张图像进行3D重建或从视频进行4D动态建模，本质上是逆向图形学——即从2D观测中推断出三维场景的结构、物体类别、位置及几何属性等信息。

举例来说，在游戏引擎或物理仿真中，通常由预设的3D场景配置文件渲染出2D图像，这是一个从场景到图像的正向过程；而计算机视觉则致力于逆向求解，即从2D图像反推3D场景。若能彻底解决这一逆问题，计算机视觉将取得重大突破，例如提升大语言模型的空间推理能力，改善视频生成是否符合物理规律的问题。因此，从图像中推理三维场景，是空间智能的核心挑战之一。

我目前的工作聚焦于空间推理。不久前发布的Gemini 2也特别强调了其空间推理能力，然而，我们近期开发的空间推理基准测试集3DSRBench结果显示，其准确率仅为50%左右，远低于人类的95%。该结果发布后，DeepMind的研究人员也提供了相关代码库，共同推动大模型空间推理的进步。这表明在空间智能，尤其是空间推理方面，机器与人类能力仍有巨大差距。

问：空间智能研究与医疗图像分析之间存在哪些关联与差异？

陈杰能：空间智能与医疗图像分析都涉及对复杂视觉场景的理解与建模。医疗图像的三维解析目标与空间智能的三维重建目标相似，都需要将像素数据转化为对三维结构及语义关系的预测，并提取关键信息如物体位置与形态。在医疗影像中，这具体表现为对器官、病灶的位置、形态及其空间关系的精准量化分析。

二者也存在显著区别：从数据特性看，医疗图像（如CT、MRI）通常是规则的三维体数据，且处于有限解剖空间内（如人体尺度有限、器官形态相对稳定），数据复杂度相对较低；而空间智能处理的是开放世界的自然图像，包含大量不规则、可变形的物体以及复杂的关节活动，数据复杂度极高。从优化目标看，空间智能与具身智能强调实时性、泛化性与交互性，期望智能体能在多样环境中快速适应，具备类似孩童的感知与探索能力；医疗AI则强调专家级的精准性与可靠性，旨在特定诊断任务上达到或超越专家水平，因此两者的技术路径与评价体系迥异。

心智模型与世界模型：赋能具身智能决策

问：您是从何时开始聚焦世界模型研究的？

陈杰能：我对世界模型的研究是与空间智能、具身智能同步展开的。空间推理是具身智能体感知物理世界的起点，但仅靠空间感知不足以支撑其对物理世界的深度交互与理解。构建一个可预测、可交互的世界模型，将能更好地帮助智能体在真实世界中做出有效决策。

世界模型的定义在学术界尚未统一，但其在控制论等领域已有二三十年的应用历史。其一个本质定义是：给定当前状态分布与动作输入，预测下一时刻的状态分布。早期的实践对“状态”的定义较为简单。

我认为世界模型的本质是提供对世界状态变化的预测性分布，但这里的“世界状态”不应是简单的低维向量，而应是一个涵盖四维时空的信息集合，包括对物体语义、纹理、三维几何、形态、形变、运动特性以及物体间空间关系的统一建模。

我关注的一个核心难点是，能否从图像观测中提取出上述丰富的三维空间表征，作为世界模型的状态输入。同时，我也重点关注世界模型在具身智能中的具体应用范式。

问：您近期发布了“生成式世界探索者”（GenEx），实现了从单张图像生成可交互3D世界，这一创意是如何诞生的？

陈杰能：人类在探索未知环境时，能够通过想象力在脑海中构建一个心理模拟世界，并在其中进行“思想实验”。这种能力使我们无需物理移动即可探索未知区域，并辅助做出更好决策——让AI智能体具备类似能力，就是我的研究初衷。

从技术实现路径看，基于当前观测（无论是单张图还是单一视角），第一步是从单张图像生成一个可交互的3D世界，第二步才是让智能体在这个生成的世界中进行探索与推理。

问：具身智能的“心智模型”与“世界模型”之间有何关联？

陈杰能：心智模型最早源于心理学与认知科学，指人脑中用于表征和理解外部世界的认知框架。它相当于一种内部现实模拟器，帮助人类解释信息、做出决策并基于经验预测结果。而世界模型同样是根据历史经验与知识，对未来状态分布进行预测。因此，两者在本质上是紧密关联的。

传统心智模型的表征主要基于语言与语义特征。如今，生成式技术的发展使得构建富含视觉细节的心智模型成为可能。我的工作实质上是将心智模型的表征能力提升到了一个新的高度，即构造出具备空间想象力的心智模型。它能想象三维世界中不可见的部分，例如看到车轮能想象出整辆救护车，或通过动作交互，“探索”到视野之外的场景。

具身智能体基于此核心能力，无论处于何种环境，都能通过对周围环境的观察实时构建一个可探索的三维心理世界，即“生成式三维世界”。在这个生成的世界中，智能体通过探索发现未曾见过的虚拟观测，并将这些“想象”出的观测融入决策过程——因此我们称之为“生成式世界探索者”。

将生成世界的观测融入决策的过程，可视为利用世界模型开发的一种新型策略。应用于具身智能时，实质是用生成式世界中收集到的虚拟观测，来补充物理世界中的缺失观测，形成更完整的观测集，从而构建一个“想象力增强”的决策策略。

问：心智模型是否包含对常识的理解？例如知道横着拿纸杯水会洒出来。

陈杰能：心智模型作为一种认知框架，自然包含基于常识的理解。然而，“知道横着拿纸杯水会洒出来”这一知识，仍然基于对纸杯和水的完全观测。心智模型可以解决更具挑战性的部分观测或缺失观测场景。它是通过已有的有限环境信息，去推理和想象那些未观测到的环境部分。例如，一阵大风是缺失的观测，但人类的心智模型能够推演出风吹后纸杯可能倾倒的结果。

模拟这些未观测到的环境因素，有助于做出更精确的决策，从而提升决策模型的泛化能力。这一研究方向未来将获得更多关注。

问：这个方向在当前的具身智能研究领域似乎并非主流热点。

陈杰能：是的，领域内许多研究者专注于提升低层控制策略的鲁棒性（如抓取、移动）。而我目前的研究更侧重于高层认知问题，旨在为具身智能体构建可交互的三维世界模型，以辅助其高层决策与规划。

在高层认知领域，除了心智模型，智能体对物理世界的空间理解本身仍是巨大挑战。如果将上游的空间理解问题处理好，再结合三维心智模型，低层的控制问题会更容易解决，能使智能体真正走入复杂的真实世界，而非局限于结构化的实验室环境。当然，高层认知与低层控制最终可以结合，形成分层决策模型。

最后，我们开发的生成式世界探索者，不仅是具身智能体的关键组件，也已初步证明能够辅助人类的认知与决策。我期待能在这个多学科交叉的前沿领域贡献自己的一份力量。

来源:https://www.leiphone.com/category/ai/XA3V8ukowAUTVBjZ.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：无问芯穹完成近5亿元A轮融资累计融资总额近10亿元下一篇：网易有道携手DeepSeek-R1加速AI教育商业化进程