世界模型:自动驾驶的终极答案,还是更优解?

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
图片来源:视觉中国
文|肖漫
编辑|李勤
过去两三年,车企谈智驾必提及各类新颖的技术名词。
世界模型是继端到端、 VLA 后,智驾领域最时髦的词。不同公司还给它套上新的外壳——小鹏推出了“世界基座模型”、蔚来的叫“端到端世界模型”、华为的叫“世界行为模型”(WA)。除了他们,地平线、理想、元戎启行、Momenta也在做世界模型。
但只看他们的发布会,很难分清它们口中的世界模型到底是不是同一种东西?它究竟解决什么问题,又被放进智能驾驶架构的哪一个位置?
把视角拉到更广义的语境里,“世界模型”本质是在虚拟世界里再造真实世界,人工智能能像人一样理解现实世界,认知物理规律、事物的因果关系和环境动态的技术。
世界模型被大部分科学家和科技公司视为“物理世界 AI”技术远征的关键拼图。斯坦福大学教授李飞飞曾指出,空间智能是AI的下一个十年,而世界模型是构建空间智能的关键技术。
走在行业前沿的科学家和科技公司还在探索当中,但中国汽车行业已经用各种新颖的概念名词把位置占住。
实际上,智驾行业里今天谈的“世界模型”也只是名词差异,在技术路径上并没有太大差别。只是对行业原来的仿真工具进行技术范式升级,在还原度更高、颗粒度更高、场景更丰富、自由度更高的虚拟世界中,解决端到端模型测试、验证问题,这一切都是为了训练出效果更高、更加拟人的端到端智驾模型。
换句话说,智驾厂商和车企并非真正打造一个完整的数字物理世界,只是用世界模型的思路造仿真器。
也许各家对于世界模型的期待有所不同,但据我们了解,截至目前,智驾行业的世界模型只应用于云端,并没有用到汽车上。
端到端普及,凸显仿真器短板
过去两三年,头部梯队的智驾方案从规则栈转向AI驱动,在“形式上”完成了统一,感知、预测、规划被尽可能揉进一张网络里,外加更大的模型、更高的算力,用车企常在发布会上的话说“端到端之后的智驾更像人在开车”。
但在实际应用上却出现了一个反直觉现象:端到端之后的新版本OTA并不一定变得更好,甚至可能“退步”。
问题的核心不是模型变差了,而是AI驱动让评估和回归变得困难。
当时许多智驾从业者认为,只要把前端训练得足够好,车就会开得足够像人。这条路径并非没有效果,端到端的前期表现让许多智驾从业者大为震撼,但端到端的“黑盒”形态也带来的副作用,当模型出错时,研发人员很难得知为什么犯错?如何证明它在下一次不会再犯?
模型好不好不再只是“训练得够不够大、数据够不够多”的问题,更取决于你如何发现问题、定义问题、验证问题。厂商们逐渐意识到,需要一个更好的仿真器在模型验证阶段用来评估模型的表现。
头部梯队玩家大都打造世界模型作为仿真器应用。为了能够让理想VLA在仿真环境里进行强化学习,理想在2025年提出了一种包含自车和他车轨迹的驾驶世界模型,充当打分老师;小鹏尽管对外只说了“世界基座模型”这一本质上世界模型无关的技术名词,但据36氪汽车了解,小鹏也在采用世界模型做仿真测试,评测新版本的模型算法能力。
端到端的普及暴露出传统仿真器的短板。“以前端到端还不是这么普及的时候,大家验证成本也没那么高,还可以分段去验证一下系统。现在端到端了以后,没法分段验证系统了,这个时候仿真器的问题就凸显出来了。”一位业内研发人员说道。
在规则时代,车企做仿真往往服务于两件事,一是半路接管的问题重现,把路测里出过事的片段拿回来回放;二是的使用仿真器增加corner case的数据丰富度,在模拟器里搭几个典型路口、横穿行人、加塞车辆的脚本场景,让系统跑一遍。
当时的仿真器更多承担“放大镜”的角色,但端到端之后,模型很难再把责任拆开,且很难系统性地产生更细的、可控的 corner case,更难支撑端到端所需要的大规模闭环验证——而这正是世界模型被引入的原因。
端到端时代,世界模型是智驾模型的“教练”
“目前国内车企世界模型的水平和特斯拉存在一定距离,不过仅相差了不到一年时间。”一位业内人士说道。
特斯拉并未使用“世界模型”的概念,而是采用了“世界模拟器”的说法(特斯拉自动驾驶副总裁Ashok Elluswamy在去年的ICCV上首次提及),该模拟器基于特斯拉自建的海量数据集进行训练,根据当前状态与下一步动作生成未来状态。从而与车端的端到端基础模型闭环,做真实效果的评估。

特斯拉神经网络闭环仿真(图片来源:
一位业内人士指出,特斯拉更像是在用神经网络“拟合”世界,渲染过程是通过计算生成,尽量减少显式的物理规则堆叠;素材库也并非完全由人提前预定义,而是保留了某种概率权重与组合空间。而这么做的好处是,模型能够具备更强的泛化能力。
国内车企走的多是另一条更“可控”的路。与36氪汽车交流的一家供应商表示,理想采用的是 3D 高斯重建——这也是目前大多数车企在采用的方式之一。
无论是哪种路线,世界模型在工程上最终都指向同一个位置:世界模型正在被车企当作端到端时代的“验证与反证系统”,用来在云端重放、改写、扩增现实驾驶中可能发生的情境,检验车端大模型的输出是否稳定、可复现,并把“哪里错、为什么错”重新变成可追踪的证据链。
世界模型扮演的角色好比教练员,优秀的教练员更能够调教出优秀的运动员。“随着云端世界模型越来越强,理论上训练出来端侧模型能力就应该是越来越强。”一位研发人员说道。
世界模型核心能力主要有两个方面:一是对物理世界的数字化建模和抽象;二是基于这样的建模,产生对物理世界合理的想象和预测,例如通过给定的图片预测未来世界将会如何变化。
世界模型的好坏取决于就是在云端能生成足够真实、足够多样性的数据。“车企如果只是用采到的真实数据去做仿真,那显然并不是在做世界模型,只是做一套回放数据的流程而已。”一位供应商产品经理说道。
世界模型需要从物理世界的数据中学习到世界的运行模式,因此世界模型的训练数据质量会显著影响模型生成的质量。极佳视界产品线负责人毛继明提到,“对于世界模型这样的生成模型,它的生成结果最终会对齐输入数据的特征分布规律。在真实的世界模型商业化过程中我们发现,如果数据质量只有60分,基于此的世界模型的生成数据质量可能就只有55分。”
基于世界模型,车企在云端做仿真的时候,可以无限制的从各个维度去去生成需要的场景,能够根据指令生成视频作为训练数据。“效率比真实采集后再去训练高了不是一星半点,模型迭代速度也会是断代式领先。”一位供应商研发人员说道。
但这些都是理想化的结果。“世界模型相对于智驾用的仿真器来说,或者说没有仿真信息,只能用离线采的数据来做验证已经是很大的升级了,但距离理想状态的仿真器还差得多。”
世界模型算法还未成熟,还有很多“幻觉”
行业现在普遍处在“刚开始”的阶段。
一位车企研发人员告诉36氪汽车,国内厂商基于世界模型最长能生成30-60秒视频片段,但动态物体的一致性并不好,无论是时空的一致性还是多视角一致性都存在较大问题。
世界模型的底层是生成式模型,而生成式模型天生带着“幻象”的风险。“世界模型目前最难的地方是怎么能保证生成的东西是真实的,如果是生成一个人,怎么保证他的行为、轨迹是在真实世界里可能发生的。”一位供应商产品经理说道。“如果世界模型生成错乱,会导致模型学到的东西都是错的,进而导致到部署到车端的模型效果非常差。”
一个极端的例子是,如果云端生成的车都是横着走的,那模就会认为一个在左前方的车会瞬间移动到右前方,在实际开车的过程中,模型就可能做出刹车的行为。
一个仿真器如果无法逼近现实世界的关键因果关系,比如湿滑路面对制动距离的影响、逆光下对静止物体的误检概率、并线时对方车辆的博弈策略等,它生成的“corner case”就可能是假的;你在假问题上优化,等于把研发资源浪费在幻影上。
在很多人看来,世界模型的瓶颈在数据与算力,但前理想汽车辅助驾驶“端到端”模型负责人夏中谱更同意Lecun的观点:“世界模型算法层面没有大突破,图像模型的自监督训练还没有像语言那样,找到一个比较顺的范式。”
语言模型之所以能迅速规模化,一个原因是语言本身信息密度高,每个词都携带明确的语义约束。而图像信息密度低,对“驾驶决策”而言,有用信息只占极小部分。
例如,模型不需要预测正后方很远那辆车的轨迹,也不需要预测远处建筑物的变化,这些都是噪声数据;但必须预测本车道前车是否会突然急刹、旁车是否会抢道、行人是否会突然横穿,模型要先知道“该把注意力放在哪”。
“目前智驾算法提取不出足够对驾驶有用的图像信息。”夏中谱说道。一张图像有可能有上百万个像素点,但跟决策相关的就20多个像素点,其他的都是噪音,模型得先学会从噪声里抓出那 1‰ 甚至 1‱ 的有效信号,再谈得上如何把信号组织成可用于推理与预测的结构。
夏中谱看来,世界模型算法尚未突破,更谈不上数据是否足够、算力需要多少的问题。也正是世界模型现在基础技术还没看到明确突破,车企的投入更多是研究性质的,甚至部分车企老板对此都是迷茫。
如果世界模型做得足够好,且在算力能够支撑的情况下,是能够放进车端。“国内现在基本把世界模型当仿真系统用,对智驾决策层面的技术理解程度还不够。”夏中谱说道。
它也能解释一个表面矛盾:为什么各家都在讲世界模型,但用户体感差异并不明显——因为大多数人的世界模型仍停留在“用于训练与验证”的第一阶段,而不是进入“能支撑决策规划”的第二阶段。
“端侧部署世界模型是最难的。”夏中谱说道。
目前还没有任何一家公司在端侧应用世界模型。他同时指出,“使用大模型方法建模物理世界,通过自身与物理世界的交互预测世界发展变化,进而通过决策影响世界朝着对自身有利方向发展。如果世界模型做到这个层面,自动驾驶和机器人相关问题都是可以解决的。”
相关攻略
BCBC币(BCBC)深度解析:技术底色与市场前景 在百花齐放的数字货币领域,总有项目希望以独特的技术路径站稳脚跟。BCBC币(BCBC)正是其中之一,它依托一套组合技术方案来构建其安全与稳定的基石,目标直指高效、低成本的支付新体验,同时也不失为投资者眼中一个潜在的增值选项。 技术架构:不止于共识的
BNB Chain完成第31次季度销毁,近10亿美元BNB永久退出流通 近日,全球顶尖的区块链基础设施BNB Chain正式完成了其第31次季度代币销毁。根据官方公布的数据,本次共计销毁了1,579,207 716枚BNB,按销毁时市场价值计算,总额高达约9 16亿美元。此次大规模销毁再次向市场展现
OpenClaw 核心命令完全指南:从入门到精通 当您开始接触一个新工具时,最常见的障碍是什么?往往是面对复杂的命令列表感到困惑,只能被动地复制粘贴。这不仅影响效率,而且在遇到问题时更难以排查。 本文将为您深入解析 OpenClaw 的关键指令,帮助您从基础操作者转变为理解原理的熟练用户,全面提升配
让AI告别“重视觉效果、轻物理逻辑”的行业短板,近期五一视界(51WORLD)发布全球首款物理直觉世界模型51World Model,实现AI遵循物理规律推演、与真实场景全要素交互的核心突破,彻底破
一台售价8 5万元的人形机器人,拆开来看,成本只有4 16万元,预估毛利率40 7%。但宇树G1的真正壁垒,藏在硬件之外。3月30日,中邮证券电新团队分析师苏千叶、盛炜、杨帅波发布《宇树G1人形机器
热门专题
热门推荐
洛克王国世界40级进阶无推图阵容打法攻略 在《洛克王国世界》的成长之旅中,达到40级是一个关键的进阶门槛。许多玩家可能会发现自己并未刻意组建一支成型的推图队伍,面对这个挑战时有些无从下手。这篇攻略将为你详细解析一套无需专门推图阵容的通关思路,帮助你利用现有资源,轻松突破40级进阶关卡。 核心阵容搭配
这城有良田主C僚属红品宝玉词条搭配攻略 在《这城有良田》中,红品宝玉的词条选择,是决定你主C僚属最终伤害上限的核心环节。面对各式各样的属性词条,不少玩家会感到困惑:如何搭配才能最大程度激发核心输出的潜力?本文将为你系统解析主C位红品宝玉的挑选逻辑与进阶策略,助你在资源投入上实现收益最大化,显著提升队
哔哩猫手表版优化指南:适配小屏的关键设置 想在智能手表上流畅体验哔哩猫?直接安装手机版本,往往会遇到界面拥挤、操作不便的问题。其实,只需调整几个核心选项,就能让哔哩猫完美匹配手表的小屏幕,操作体验大幅提升。 1、DPI优化:精准调节显示密度 手表屏幕空间有限,默认的显示比例常常导致文字过大、布局浪费
《深海迷航冰点之下》咖啡机使用全攻略:生存必备热饮制作指南 在《深海迷航冰点之下》这片危机四伏的极地海域中,新手面临的第一个致命威胁往往是持续不断的体温流失。与前作不同,身体失温在游戏前期是核心生存挑战之一。有效应对失温的方法主要有:尽快解锁并制作抗压潜水服的升级模块——防寒服、靠近能提供热源的炽热
三国志王道天下吕布骑阵容玩法攻略 在策略手游《三国志王道天下》中,构建强力阵容是核心乐趣。以飞将吕布为核心的群雄骑兵队,以其惊人的爆发力与爽快的操作体验,备受玩家关注。本攻略将为你详细解析这套阵容的构建精髓、核心机制与实战搭配思路,助你打造一支所向披靡的突击铁骑。 阵容构成 这套阵容以纯粹的群雄阵营





