小鹏加速L4布局:VLA架构成自动驾驶破局关键

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
编辑|泽南、杜伟
两个月前的 CES 上,黄仁勋开源了英伟达的首个 VLA(视觉 - 语言 - 动作)模型,并高调宣称物理 AI 的「ChatGPT 时刻」马上就要到来。
如今,物理世界的 AI 正在成为一个重要趋势:从机器人到辅助驾驶,越来越多的公司正在尝试用 VLA 模型来重构机器与物理世界交互的方式。
在辅助驾驶领域,端到端的 VLA 方法已经经历了大量验证,实现了前所未有的效果。然而,这种架构面临一个天然挑战:作为中间层的语言难以完整准确表达现实物理世界的全部细节。李飞飞曾在一次访谈中表示,「语言本身只是对物理世界的一种有损表达。」
在需要实时理解环境并生成驾驶决策的自动驾驶环境中,通过语言这一中间层来描述物理世界既有可能引入信息损失,还会增加额外推理路径。随着驾驶场景复杂度的增加,这种架构缺陷制约了系统准确率与效率的继续提升。
针对这一痛点,小鹏汽车给出的创新性解法是:直接去掉「语言转译」环节,在业界首次实现从视觉信号到动作指令的端到端直接生成。这正是其在去年 11 月亮相的第二代 VLA(XPENG VLA 2.0),并在此后数月完成了 468 个版本更新。
新技术很快产生了质变:在 3 月 2 日举办的「小鹏第二代 VLA 媒体体验日」上,何小鹏宣布,第二代 VLA 将于本月开启推送。

人们普遍预测,2026 年将成为「物理 AI 元年」。小鹏第二代 VLA 的落地,率先给出了通向完全自动驾驶的「中国答案」。
跨代级的驾驶体验
在实际体验上,第二代 VLA 的提升主要体现在三大维度:安心丝滑、全场景能力和高效率
由于端到端模型的泛化能力,小鹏第二代 VLA 已实现实现准确识别各种异形车辆的能力。

即使是对面来车的交通事故,VLA 也能正确识别障碍物和阻碍路线的车辆,并进行实时的路径规划。

在安全和流畅度提升的同时,小鹏的第二代 VLA 成为了真正的「全场景辅助驾驶」,支持从停车位、P 挡的原地激活,覆盖园区小路、乡村土路及无导航道路,能够应对小路通行、乡村小路避坑等复杂场景。
在拥挤且复杂的停车场,第二代 VLA 辅助驾驶可以自动漫游一直穿行到出门,给你充分的时间设置好导航,可以开始正式的行程。

这意味着从你上车按下启动键开始,AI 系统就能接管驾驶,真正实现了从家里车位到公司车位的点到点无缝衔接。何小鹏表示,全场景的辅助驾驶能力将保证在今年年内推出,在所有场景下的辅助驾驶能力都会像主干道一样达到「99 分水平」。
第二代 VLA 的通行效率也有大幅提升,在保障安全的前提下,小鹏实测其综合行车效率提升了 23%。在城市晚高峰的复杂路况下,其通行效率超过了传统的 L2 智驾和 Robotaxi。
基于这样的能力,第二代 VLA 的使用门槛大幅降低。何小鹏表示,好的技术一定要让每一个人都能用起来,国民的智驾就应该像坐电梯一样简单,做到简单、安全且好用。
不过,体验上是极度的简单好用,并不意味着技术上是在原有智驾框架上的简单修补。小鹏第二代 VLA 背后,是底层技术架构的一次完全「推倒重来」。
重构技术底座:原生多模态物理大模型
面向 L4 的终极目标,小鹏汽车自前年开始立项,对端到端的智能驾驶进行了完全的底层重构。
为了将自动驾驶推向物理 AI 的本质,小鹏构建了全流程能力,其中第二代 VLA 是真正做好高阶自动驾驶的关键技术底座
第二代 VLA 代表了 AI 驱动驾驶技术的一次重要架构升级,其不再像传统 VLA 模型那样先通过视觉感知获取环境信息,再将这些信息转化为基于语言的推理过程,最终生成车辆的行动指令。
通过引入一种端到端的「视觉 - 动作」(Vision-to-Action)架构,第二代 VLA 使系统能够将环境感知直接转化为驾驶决策,提升了整体效率,并显著加快了系统响应速度。
用一句话总结第二代 VLA:其以统一模型贯通环境感知、场景推理与行动决策,实现「感知 — 推理 — 行动」一体化
在感知层面,通过原生多模态 Tokenizer,打破不同模态之间的壁垒,实现了视觉、语音、文本等的统一编码与融合,对物理世界形成了统一的理解。
在推理层面,引入超密集的视觉思维链(Visual CoT),能够对复杂场景进行更高效视觉推理,相较于传统 CoT 推理效率提升约 32 倍。同时相较传统 CoT 预测误差降低 33%,提升系统对复杂驾驶环境的理解与决策判断。
在行动层面,直接生成多模态输出,包括语音、视觉反馈以及具体动作和行为。

小鹏通用智能中心负责人刘先明
不仅如此,小鹏汽车还联合北京大学提出了一种全新的视觉 token 剪枝框架FastDriveVLA,它能让 AI 像人类司机一样,在复杂路况下自动忽略路边的广告牌和无关风景,只盯着核心路况。
通过让 AI 只专注有用的核心信息而忽略无用信息,该框架高效解决了自动驾驶模型 VLA 在处理高帧率图像时带来的超高计算量问题。相关论文已被 AI 顶会 AAAI 2026 接收。

论文地址:https://arxiv.org/pdf/2507.23318
当然,构建出强大的 AI 底座仅仅是第一步。在高度复杂的物理世界中,面向 L4 级的辅助驾驶,还必须依托于另外几个核心要素。
能力公式重构:模型 × 算力 × 数据 × 本体
小鹏提出:第二代 VLA 的突破并非单点能力升级,而是遵循 L4 能力等于「模型 × 算力 × 数据 × 本体」的 Scaling Laws(规模法则)
正如前沿 AI 技术应用不断验证的那样,单纯堆叠通用芯片算力或一味追求庞大的模型参数,往往会在实际部署时遭遇瓶颈。真正的能力护城河,必须是算法、底层硬件架构与海量数据的深度耦合。
在自动驾驶这个顶级 AI 工程问题上,要想实现真正的 L4 级自动驾驶,仅靠单一的算法模型突破是远远不够的。系统必须依托车辆这个「物理本体」,在模型、算力和数据三个维度实现高度协同。
这是一条难而正确的路。
在这其中,既包含了理解真实世界的基础:原生多模态大模型。正如上文所述,小鹏的基座模型实现「看、听、读」的感官合一,将感知理解、场景推理、行动执行统一到同一模型框架中。

同时也包含了高度优化的软硬件协同,利用有效算力打开智能的上限
小鹏在底层算力架构上进行了深度定制。依靠自研的图灵芯片,小鹏实现了「芯片 - 编译器 - 模型」的联合优化研发。通过专门开发的自动化编译器和基于芯片定制化的图灵结构模型,小鹏最大化了算力的利用率,使得模型在车端的运行速度飙升了 12 倍。

这种深度的软硬件一体化设计,正是第二代 VLA 能够实时处理海量视觉信息的底气。
在训练 AI 的过程中,还必须构筑起数据飞轮,让视觉数据的高信息密度价值得以充分释放。
一个值得关注的对比是:当前国内所有数字 AI(主要是各类大语言模型)的日调用量大约为 0.737 万亿 Token,而小鹏仅仅 20 万辆搭载第二代 VLA Ultra 的车辆,每天在车端模型上消耗的物理 AI Token 量就高达 58.8 万亿 —— 小鹏车端模型每天消耗的 Token,是全国数字 AI 日调用量的近 80 倍。
目前,小鹏已经积累了超过 50PB 的训练数据,小鹏车端的高清传感器每秒要处理高达 53 亿字节的视觉数据。
最后,这一切都需要依托强大的 AI Infra,再通过世界模型的仿真训练实现闭环。
依托领先的 AI 基础设施,自去年科技日以来,小鹏在半年内完成了 468 个模型的版本迭代。
此外为了应对现实世界中难以穷尽的 Corner Case,小鹏引入了世界模型进行闭环仿真。如今,其仿真场景库已从一年前的 3 万个激增至 50 多万个,每天在虚拟世界中进行基于强化学习的「自我对弈」,日均仿真测试里程等效于 3000 万公里的实车测试。

可以说,小鹏第二代 VLA 是一个基于端到端 AI 算法、定制芯片高度整合,由海量数据和世界模型知识共同构建的超级物理 AI 生命体。
结语
随着新一代 VLA 智能驾驶的出现,物理 AI 的实力正在逐渐展现。

何小鹏表示,基于端到端模型的辅助驾驶能力将会成为汽车行业未来三年的重要突破,它是面向完全自动驾驶的第一个版本。在小鹏内部,该技术正在以前所未有的速度迭代。
对于一家车企而言,第二代 VLA 是小鹏在自动驾驶技术路径上的一次重要探索:不同于传统驾驶系统各个模块(如感知、规划、控制)逐一优化的工程化思路,其围绕自研基座模型打造统一的物理世界智能系统,从而具备理解真实世界并持续学习、演进的能力。
随着自动驾驶技术加速迈向 AI 驱动的智能时代,这种技术体系势必成为其在下一阶段竞争中争夺主动权的关键变量。
相关攻略
脑机接口技术正处于从实验室迈向产业化应用的关键转折点,其发展离不开数据创新的驱动、检测服务的支撑与产业集群的聚合。3月27日,脑机接口创新发展论坛在中关村国际创新中心举行,本次论坛以 "创新集聚·脑智
来源:环球网【环球网科技报道 记者 李文瑶】当AI技术从技术验证走向实际应用,算力供给的结构性调整正成为业界关注的焦点。3月26日,中关村论坛年会现场,中科曙光发布世界首个无线缆箱式超节点——sca
1两年前横空出世的Sora,曾给AI业界和全球网民带来巨大的震撼。到2026年,它突然退场,没能再掀起那样大的波澜。从商业决策的角度看,这其实早就是意料之中的事。极高的视频生成成本、少得可怜的付费用
人工智能(ai)大模型正加速融入医疗健康生态,但其背后的法律责任、伦理边界与风险分担问题仍缺乏明晰框架。如何让ai在守住安全与伦理底线的前提下健康发展?笔者认为,要明确ai辅助诊疗责任,构建一个安全
出品|虎嗅科技组作者|宋思杭编辑|苗正卿头图|中关村论坛现场上一次智谱AI与月之暗面同台,还是在1月10日。那天是智谱通过港交所聆讯后的第三天,一个周六,在中关村国际创新中心举行了一场名为AGI-N
热门专题
热门推荐
拼多多电脑版正式入口为https: www pinduoduo com ,支持主流浏览器快速访问、多种登录方式、智能搜索、商品360°查看、实时物流追踪及嵌入式售后操作。拼多多电
在ppt制作中,合理运用网格线和参考线能极大提升页面元素的对齐精度与整体美观度。以下将详细介绍其设置方法及应用技巧。一、ppt网格线的设置1 打开视图菜单:打开ppt软件,找到菜
在风帆纪元手游前期,选择一艘合适的船对于玩家的游戏体验至关重要。以下为大家推荐几种前期好用的船只。小型双桅纵帆船特点它具有较高的机动性,转向灵活,能快速调整航行方向。操作相对简单,
眼下,口碑两极、热度一路走高的话题大剧《逐玉》即将迎来收官。紧随其后,剧集市场迎来上新热潮,荧屏竞争愈发热闹。白宇、龚俊、迪丽热巴、孙俪、刘烨、聂远等实力派与人气演员轮番登场,年代现实、律政行业、东
IT之家 3 月 28 日消息,OPPO 智能生态产品总监今日在抖音平台曝光了 OPPO Pad mini,定位轻薄小尺寸平板,预计将于 4 月亮相。据博主 @数码闲聊站 此前爆料,OPPO Pad





