人工智能已具备对话、写作、数据分析乃至视频生成能力,其下一个关键进化方向是什么?
当前,AI不仅能自如对话、撰写文章、分析数据,甚至可以生成逼真的视频画面。当它完成了从“识别”到“创作”再到“想象”的跨越,一个核心问题自然浮现:下一步该迈向何方?答案是——走出虚拟的数字空间,进入真实的物理世界。
这正是物理人工智能(Physical AI)正在探索的前沿方向。与仅在数字世界中处理信息的生成式AI不同,物理AI是一种能够感知环境、进行物理操作,并与真实空间深度交互的智能体。简而言之,它不再只是回答你的问题,而是能够亲自动手执行任务。
从图像识别的“视觉能力”,到文字生成的“表达能力”,再到视频创作的“想象能力”,AI正经历着持续的“能力进化”。在掌握了“看、写、生成”之后,它还能做什么?近年来,科技界正积极推动AI从虚拟走向现实的技术路径,物理AI也因此受到越来越多的关注。它与生成式AI究竟有何不同?适用于哪些具体场景?技术落地又将面临怎样的挑战?记者为此采访了多位业内专家。
能力升级:将AI从“脑力工作者”转化为能动手的“执行者”
什么是物理AI?简单来说,我们可以将其理解为走出屏幕、融入现实的AI智能体,它能够像人类一样感知周围环境并进行物理操作。
北京通用人工智能研究院—德塔智能联合实验室负责人马晓健指出,物理AI具备三个关键特征:能力建立在真实的物理交互数据之上;包含对物理世界的深度理解;能够被部署到真实的实体设备上。这意味着,物理AI需要理解物体的运动、接触、形变,掌握摩擦、重力、空间关系和因果变化等物理规律,并据此预测未来、规划动作,从而在开放环境中独立完成任务。
从技术演进的视角看,物理AI是人工智能发展到一定阶段的自然趋势。“第一阶段,AI通过计算机视觉学会了‘看’;第二阶段,通过自然语言处理学会了‘写’;当前,通过物理AI,它正在学习如何‘行动’。”百度智能云主任架构师应茹介绍道,物理AI的出现,标志着AI从单纯的信息处理工具,进化为能够与现实世界互动的智能体。
过去,大模型主要模拟人类的语言、知识和推理能力,相当于进入了人类的精神世界。然而,人类的智能不仅体现在大脑中,也体现在与物理世界的互动中。“当AI在语言和多模态理解上取得突破后,下一步必然是将这种智能外化到真实世界,让机器能够感知、行动、反复试错并完成实际工作。”马晓健补充说。
物理AI与生成式AI的差异,主要体现在技术原理和承担的任务上。物理AI的核心能力是在物理世界中执行运动控制、环境交互等任务;而生成式AI的关键能力在于文本、图像、视频的生成,服务于内容创作、代码编写、数据分析等应用。不过,两者并非完全对立。马晓健认为,它们正在深度结合。例如,生成式AI强大的语言理解、场景生成、规划与代码生成能力,能够帮助物理AI更好地理解任务、构建仿真环境等。
面临挑战:从模型到数据,物理AI落地需克服多重难题
过去几年,科技界从核心算法到工程本体,多措并举地推动物理AI的落地。例如,被称为物理AI“内在大脑”的世界模型,用于模拟环境动态并预测未来状态。学术界专家提出世界模型应具备三项关键能力——生成性、多模态、交互性,这为物理AI构建了环境理解、因果推断与任务规划的框架。
当前,“视觉—语言—动作”大模型的迭代演进,为物理AI奠定了坚实的模型基础。马晓健介绍,目前物理AI的落地主要遵循三类技术路线。
第一类是“预训练—后训练”范式:首先利用互联网视频、第一视角视频、跨机器人操作数据等进行大规模预训练,然后通过遥操作数据、强化学习或真机微调来完成后续训练。
第二类是“现实—仿真—现实”范式:首先将真实世界的几何、材质、动力学等信息重建到高仿真环境中,让机器人在“数字孪生”场景中大量试错,最后再将模型迁移部署到真实设备上。
第三类是大模型编程路线:利用语言模型,根据具体任务生成机器人控制程序,串联起感知、规划、执行等多个功能模块。
不同的技术路线各有优劣。“预训练—后训练”路径清晰,但对数据质量、机器人本体一致性以及真实交互数据的体量要求极高。由于物理AI尚未实现规模化落地,难以低成本、高效率地采集海量训练数据,这成为制约技术落地的瓶颈之一。而“现实—仿真—现实”范式的优势在于,用仿真算力替代成本高昂、周期漫长的真实数据采集,但复杂的接触、柔性形变、流体运动、非平整地面等物理过程,仍难以实现高精度的实时模拟。
“由于真实世界工况复杂,多种物理因素相互影响,仿真系统无法完整复刻所有物理细节,有时只能作为真实数据缺失时的补充方案。”北京微链道爱科技有限公司总经理张宇表示。“总体来看,这三条路线大概率不会相互取代,而是在数据、仿真和大模型推理层面逐步走向融合。”马晓健补充道。
那么,物理AI与具身智能是什么关系?简单说,具身智能是物理AI的重要载体,而物理AI则是落地具身智能的核心技术路径。不过,物理AI在落地具身智能的过程中,硬件本体的工程化层面仍存在诸多挑战。例如,具身智能执行任务时,需要适配复杂的动作控制算法,如果硬件精度不达标,很容易影响软硬件的深度耦合。业界专家指出,近年来,我国机器人核心零部件的国产化水平显著提升,但谐波减速器等关键零部件的加工精度与国际先进水平相比仍有提升空间。
发展前景:依托丰富应用场景,物理AI有望快速落地
尽管存在阻力,业内专家普遍看好物理AI的产业化前景。一方面,物理AI与大模型的发展底层逻辑相通,依托更大规模的数据采集、性能更强的模型、系统化的评测与持续迭代,产品能力将稳步提升。另一方面,物理AI不必等到完全研发出通用类机器人才算实现产业化——在垂直细分场景中,只要模型能在同类任务中展现出良好的泛化能力,就是重要的阶段性成果。
未来,低空经济、新能源电池、具身智能、高端芯片、航空航天等需要复杂场景仿真与优化的前沿领域,都是物理AI的重点落地方向。马晓健认为,在一些不适合人类长期作业、传统自动化又难以完全解决的场景中,物理AI有望最先落地。
电力巡检便是一个典型场景。在西南偏远地区,过去需要工作人员翻山越岭检查设备,而现在,北京人形机器人创新中心研制的“天工”机器人已能够完成户外巡检、变电倒闸操作、配网接地线挂载等复杂任务。“物理AI并不是要取代所有自动化。”马晓健强调,如果任务高度规整、流程固定,传统工业自动化往往更便宜、更稳定。物理AI的真正优势,在于处理环境多变、需要实时感知和灵活决策,同时兼具重复性或高危属性的任务。
在产业界,物理AI模型的训练效率也在持续提升。“得益于我们在AI基础设施领域的长期积累,我们将‘视觉—语言—动作’大模型的训练速度提升了70%,世界模型的推理时延下降了50%。原本以周为单位的训练周期,如今可以压缩到小时级。”百度集团执行副总裁、百度智能云事业群总裁沈抖表示。
如何更好地推进物理AI落地?当前,物理AI仍处于技术路线尚未收敛的发展阶段。马晓健认为,产业政策与科研扶持不宜集中于单一技术热点,应引导企业、高校和科研院所围绕模型、控制、仿真、传感器、灵巧手、本体结构等多个方向开展多元化攻关。这不仅有助于规避押注单一路线的研发风险,也有利于补齐我国在算法、硬件、制造和系统集成等全链条产业环节的短板。
物理AI的真正落地,不依赖实验室演示,而是依靠真实场景的数据反馈与持续迭代。业内人士认为,丰富的应用场景资源是我国发展物理AI的独特优势。“让技术深入矿井、工厂、仓储、巡检现场等一线场景,物理AI才能更好地形成‘场景—数据—模型—产品’的良性闭环。”马晓健总结道。
《 人民日报 》( 2026年06月15日 08 版)
