世界模型：自动驾驶的终极答案，还是更优解？

首页/科技数码/文章详情

世界模型：自动驾驶的终极答案，还是更优解？

时间：2026-02-05 12:49

图片来源：视觉中国文｜肖漫编辑｜李勤过去两三年，车企谈智驾必提及各类新颖的技术名词。世界模型是继端到端、 VLA 后，智驾领域最时髦的词。不同公司还给它套上新的外壳——小鹏推出了“世界基座模型”、蔚

图片来源：视觉中国

文｜肖漫

编辑｜李勤

过去两三年，车企谈智驾必提及各类新颖的技术名词。

世界模型是继端到端、 VLA 后，智驾领域最时髦的词。不同公司还给它套上新的外壳——小鹏推出了“世界基座模型”、蔚来的叫“端到端世界模型”、华为的叫“世界行为模型”（WA）。除了他们，地平线、理想、元戎启行、Momenta也在做世界模型。

但只看他们的发布会，很难分清它们口中的世界模型到底是不是同一种东西？它究竟解决什么问题，又被放进智能驾驶架构的哪一个位置？

把视角拉到更广义的语境里，“世界模型”本质是在虚拟世界里再造真实世界，人工智能能像人一样理解现实世界，认知物理规律、事物的因果关系和环境动态的技术。

世界模型被大部分科学家和科技公司视为“物理世界 AI”技术远征的关键拼图。斯坦福大学教授李飞飞曾指出，空间智能是AI的下一个十年，而世界模型是构建空间智能的关键技术。

走在行业前沿的科学家和科技公司还在探索当中，但中国汽车行业已经用各种新颖的概念名词把位置占住。

实际上，智驾行业里今天谈的“世界模型”也只是名词差异，在技术路径上并没有太大差别。只是对行业原来的仿真工具进行技术范式升级，在还原度更高、颗粒度更高、场景更丰富、自由度更高的虚拟世界中，解决端到端模型测试、验证问题，这一切都是为了训练出效果更高、更加拟人的端到端智驾模型。

换句话说，智驾厂商和车企并非真正打造一个完整的数字物理世界，只是用世界模型的思路造仿真器。

也许各家对于世界模型的期待有所不同，但据我们了解，截至目前，智驾行业的世界模型只应用于云端，并没有用到汽车上。

端到端普及，凸显仿真器短板

过去两三年，头部梯队的智驾方案从规则栈转向AI驱动，在“形式上”完成了统一，感知、预测、规划被尽可能揉进一张网络里，外加更大的模型、更高的算力，用车企常在发布会上的话说“端到端之后的智驾更像人在开车”。

但在实际应用上却出现了一个反直觉现象：端到端之后的新版本OTA并不一定变得更好，甚至可能“退步”。

问题的核心不是模型变差了，而是AI驱动让评估和回归变得困难。

当时许多智驾从业者认为，只要把前端训练得足够好，车就会开得足够像人。这条路径并非没有效果，端到端的前期表现让许多智驾从业者大为震撼，但端到端的“黑盒”形态也带来的副作用，当模型出错时，研发人员很难得知为什么犯错？如何证明它在下一次不会再犯？

模型好不好不再只是“训练得够不够大、数据够不够多”的问题，更取决于你如何发现问题、定义问题、验证问题。厂商们逐渐意识到，需要一个更好的仿真器在模型验证阶段用来评估模型的表现。

头部梯队玩家大都打造世界模型作为仿真器应用。为了能够让理想VLA在仿真环境里进行强化学习，理想在2025年提出了一种包含自车和他车轨迹的驾驶世界模型，充当打分老师；小鹏尽管对外只说了“世界基座模型”这一本质上世界模型无关的技术名词，但据36氪汽车了解，小鹏也在采用世界模型做仿真测试，评测新版本的模型算法能力。

端到端的普及暴露出传统仿真器的短板。“以前端到端还不是这么普及的时候，大家验证成本也没那么高，还可以分段去验证一下系统。现在端到端了以后，没法分段验证系统了，这个时候仿真器的问题就凸显出来了。”一位业内研发人员说道。

在规则时代，车企做仿真往往服务于两件事，一是半路接管的问题重现，把路测里出过事的片段拿回来回放；二是的使用仿真器增加corner case的数据丰富度，在模拟器里搭几个典型路口、横穿行人、加塞车辆的脚本场景，让系统跑一遍。

当时的仿真器更多承担“放大镜”的角色，但端到端之后，模型很难再把责任拆开，且很难系统性地产生更细的、可控的 corner case，更难支撑端到端所需要的大规模闭环验证——而这正是世界模型被引入的原因。

端到端时代，世界模型是智驾模型的“教练”

“目前国内车企世界模型的水平和特斯拉存在一定距离，不过仅相差了不到一年时间。”一位业内人士说道。

特斯拉并未使用“世界模型”的概念，而是采用了“世界模拟器”的说法（特斯拉自动驾驶副总裁Ashok Elluswamy在去年的ICCV上首次提及），该模拟器基于特斯拉自建的海量数据集进行训练，根据当前状态与下一步动作生成未来状态。从而与车端的端到端基础模型闭环，做真实效果的评估。

特斯拉神经网络闭环仿真（图片来源：

一位业内人士指出，特斯拉更像是在用神经网络“拟合”世界，渲染过程是通过计算生成，尽量减少显式的物理规则堆叠；素材库也并非完全由人提前预定义，而是保留了某种概率权重与组合空间。而这么做的好处是，模型能够具备更强的泛化能力。

国内车企走的多是另一条更“可控”的路。与36氪汽车交流的一家供应商表示，理想采用的是 3D 高斯重建——这也是目前大多数车企在采用的方式之一。

无论是哪种路线，世界模型在工程上最终都指向同一个位置：世界模型正在被车企当作端到端时代的“验证与反证系统”，用来在云端重放、改写、扩增现实驾驶中可能发生的情境，检验车端大模型的输出是否稳定、可复现，并把“哪里错、为什么错”重新变成可追踪的证据链。

世界模型扮演的角色好比教练员，优秀的教练员更能够调教出优秀的运动员。“随着云端世界模型越来越强，理论上训练出来端侧模型能力就应该是越来越强。”一位研发人员说道。

世界模型核心能力主要有两个方面：一是对物理世界的数字化建模和抽象；二是基于这样的建模，产生对物理世界合理的想象和预测，例如通过给定的图片预测未来世界将会如何变化。

世界模型的好坏取决于就是在云端能生成足够真实、足够多样性的数据。“车企如果只是用采到的真实数据去做仿真，那显然并不是在做世界模型，只是做一套回放数据的流程而已。”一位供应商产品经理说道。

世界模型需要从物理世界的数据中学习到世界的运行模式，因此世界模型的训练数据质量会显著影响模型生成的质量。极佳视界产品线负责人毛继明提到，“对于世界模型这样的生成模型，它的生成结果最终会对齐输入数据的特征分布规律。在真实的世界模型商业化过程中我们发现，如果数据质量只有60分，基于此的世界模型的生成数据质量可能就只有55分。”

基于世界模型，车企在云端做仿真的时候，可以无限制的从各个维度去去生成需要的场景，能够根据指令生成视频作为训练数据。“效率比真实采集后再去训练高了不是一星半点，模型迭代速度也会是断代式领先。”一位供应商研发人员说道。

但这些都是理想化的结果。“世界模型相对于智驾用的仿真器来说，或者说没有仿真信息，只能用离线采的数据来做验证已经是很大的升级了，但距离理想状态的仿真器还差得多。”

世界模型算法还未成熟，还有很多“幻觉”

行业现在普遍处在“刚开始”的阶段。

一位车企研发人员告诉36氪汽车，国内厂商基于世界模型最长能生成30-60秒视频片段，但动态物体的一致性并不好，无论是时空的一致性还是多视角一致性都存在较大问题。

世界模型的底层是生成式模型，而生成式模型天生带着“幻象”的风险。“世界模型目前最难的地方是怎么能保证生成的东西是真实的，如果是生成一个人，怎么保证他的行为、轨迹是在真实世界里可能发生的。”一位供应商产品经理说道。“如果世界模型生成错乱，会导致模型学到的东西都是错的，进而导致到部署到车端的模型效果非常差。”

一个极端的例子是，如果云端生成的车都是横着走的，那模就会认为一个在左前方的车会瞬间移动到右前方，在实际开车的过程中，模型就可能做出刹车的行为。

一个仿真器如果无法逼近现实世界的关键因果关系，比如湿滑路面对制动距离的影响、逆光下对静止物体的误检概率、并线时对方车辆的博弈策略等，它生成的“corner case”就可能是假的；你在假问题上优化，等于把研发资源浪费在幻影上。

在很多人看来，世界模型的瓶颈在数据与算力，但前理想汽车辅助驾驶“端到端”模型负责人夏中谱更同意Lecun的观点：“世界模型算法层面没有大突破，图像模型的自监督训练还没有像语言那样，找到一个比较顺的范式。”

语言模型之所以能迅速规模化，一个原因是语言本身信息密度高，每个词都携带明确的语义约束。而图像信息密度低，对“驾驶决策”而言，有用信息只占极小部分。

例如，模型不需要预测正后方很远那辆车的轨迹，也不需要预测远处建筑物的变化，这些都是噪声数据；但必须预测本车道前车是否会突然急刹、旁车是否会抢道、行人是否会突然横穿，模型要先知道“该把注意力放在哪”。

“目前智驾算法提取不出足够对驾驶有用的图像信息。”夏中谱说道。一张图像有可能有上百万个像素点，但跟决策相关的就20多个像素点，其他的都是噪音，模型得先学会从噪声里抓出那 1‰ 甚至 1‱ 的有效信号，再谈得上如何把信号组织成可用于推理与预测的结构。

夏中谱看来，世界模型算法尚未突破，更谈不上数据是否足够、算力需要多少的问题。也正是世界模型现在基础技术还没看到明确突破，车企的投入更多是研究性质的，甚至部分车企老板对此都是迷茫。

如果世界模型做得足够好，且在算力能够支撑的情况下，是能够放进车端。“国内现在基本把世界模型当仿真系统用，对智驾决策层面的技术理解程度还不够。”夏中谱说道。

它也能解释一个表面矛盾：为什么各家都在讲世界模型，但用户体感差异并不明显——因为大多数人的世界模型仍停留在“用于训练与验证”的第一阶段，而不是进入“能支撑决策规划”的第二阶段。

“端侧部署世界模型是最难的。”夏中谱说道。

目前还没有任何一家公司在端侧应用世界模型。他同时指出，“使用大模型方法建模物理世界，通过自身与物理世界的交互预测世界发展变化，进而通过决策影响世界朝着对自身有利方向发展。如果世界模型做到这个层面，自动驾驶和机器人相关问题都是可以解决的。”

来源：https://www.163.com/dy/article/KL0LOEGR05118DFD.html

算法轨迹仿真器自动驾驶神经网络世界模型真实世界

上一篇《仁王3》直播突发故障，制作人幽默回应开发中实情 下一篇苹果CarPlay破圈，或登陆Sea-Doo水上摩托艇平台

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

世界模型：自动驾驶的终极答案，还是更优解？

相关推荐

同类最新

多点触控技术实际应用案例分享

MultiTouch多点触控全面教程指南：从入门到实际使用

Lily Camera无人机空中拍摄真实应用案例与心得分享

Lily相机使用中常见问题解决方法

Lily Camera从入门到实际使用的完整详细教程指南