首页 游戏 软件 资讯 排行榜 专题
首页
AI
小鹏加速L4布局:VLA架构成自动驾驶破局关键

小鹏加速L4布局:VLA架构成自动驾驶破局关键

热心网友
64
转载
2026-03-10



免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

编辑|泽南、杜伟

两个月前的 CES 上,黄仁勋开源了英伟达的首个 VLA(视觉 - 语言 - 动作)模型,并高调宣称物理 AI 的「ChatGPT 时刻」马上就要到来。

如今,物理世界的 AI 正在成为一个重要趋势:从机器人到辅助驾驶,越来越多的公司正在尝试用 VLA 模型来重构机器与物理世界交互的方式。

在辅助驾驶领域,端到端的 VLA 方法已经经历了大量验证,实现了前所未有的效果。然而,这种架构面临一个天然挑战:作为中间层的语言难以完整准确表达现实物理世界的全部细节。李飞飞曾在一次访谈中表示,「语言本身只是对物理世界的一种有损表达。」

在需要实时理解环境并生成驾驶决策的自动驾驶环境中,通过语言这一中间层来描述物理世界既有可能引入信息损失,还会增加额外推理路径。随着驾驶场景复杂度的增加,这种架构缺陷制约了系统准确率与效率的继续提升。

针对这一痛点,小鹏汽车给出的创新性解法是:直接去掉「语言转译」环节,在业界首次实现从视觉信号到动作指令的端到端直接生成。这正是其在去年 11 月亮相的第二代 VLA(XPENG VLA 2.0),并在此后数月完成了 468 个版本更新。

新技术很快产生了质变:在 3 月 2 日举办的「小鹏第二代 VLA 媒体体验日」上,何小鹏宣布,第二代 VLA 将于本月开启推送。



人们普遍预测,2026 年将成为「物理 AI 元年」。小鹏第二代 VLA 的落地,率先给出了通向完全自动驾驶的「中国答案」。

跨代级的驾驶体验

在实际体验上,第二代 VLA 的提升主要体现在三大维度:安心丝滑、全场景能力和高效率

由于端到端模型的泛化能力,小鹏第二代 VLA 已实现实现准确识别各种异形车辆的能力。



即使是对面来车的交通事故,VLA 也能正确识别障碍物和阻碍路线的车辆,并进行实时的路径规划。



在安全和流畅度提升的同时,小鹏的第二代 VLA 成为了真正的「全场景辅助驾驶」,支持从停车位、P 挡的原地激活,覆盖园区小路、乡村土路及无导航道路,能够应对小路通行、乡村小路避坑等复杂场景。

在拥挤且复杂的停车场,第二代 VLA 辅助驾驶可以自动漫游一直穿行到出门,给你充分的时间设置好导航,可以开始正式的行程。



这意味着从你上车按下启动键开始,AI 系统就能接管驾驶,真正实现了从家里车位到公司车位的点到点无缝衔接。何小鹏表示,全场景的辅助驾驶能力将保证在今年年内推出,在所有场景下的辅助驾驶能力都会像主干道一样达到「99 分水平」。

第二代 VLA 的通行效率也有大幅提升,在保障安全的前提下,小鹏实测其综合行车效率提升了 23%。在城市晚高峰的复杂路况下,其通行效率超过了传统的 L2 智驾和 Robotaxi。

基于这样的能力,第二代 VLA 的使用门槛大幅降低。何小鹏表示,好的技术一定要让每一个人都能用起来,国民的智驾就应该像坐电梯一样简单,做到简单、安全且好用。

不过,体验上是极度的简单好用,并不意味着技术上是在原有智驾框架上的简单修补。小鹏第二代 VLA 背后,是底层技术架构的一次完全「推倒重来」。

重构技术底座:原生多模态物理大模型

面向 L4 的终极目标,小鹏汽车自前年开始立项,对端到端的智能驾驶进行了完全的底层重构。

为了将自动驾驶推向物理 AI 的本质,小鹏构建了全流程能力,其中第二代 VLA 是真正做好高阶自动驾驶的关键技术底座

第二代 VLA 代表了 AI 驱动驾驶技术的一次重要架构升级,其不再像传统 VLA 模型那样先通过视觉感知获取环境信息,再将这些信息转化为基于语言的推理过程,最终生成车辆的行动指令。

通过引入一种端到端的「视觉 - 动作」(Vision-to-Action)架构,第二代 VLA 使系统能够将环境感知直接转化为驾驶决策,提升了整体效率,并显著加快了系统响应速度。

用一句话总结第二代 VLA:其以统一模型贯通环境感知、场景推理与行动决策,实现「感知 — 推理 — 行动」一体化

在感知层面,通过原生多模态 Tokenizer,打破不同模态之间的壁垒,实现了视觉、语音、文本等的统一编码与融合,对物理世界形成了统一的理解。

在推理层面,引入超密集的视觉思维链(Visual CoT),能够对复杂场景进行更高效视觉推理,相较于传统 CoT 推理效率提升约 32 倍。同时相较传统 CoT 预测误差降低 33%,提升系统对复杂驾驶环境的理解与决策判断。

在行动层面,直接生成多模态输出,包括语音、视觉反馈以及具体动作和行为。



小鹏通用智能中心负责人刘先明

不仅如此,小鹏汽车还联合北京大学提出了一种全新的视觉 token 剪枝框架FastDriveVLA,它能让 AI 像人类司机一样,在复杂路况下自动忽略路边的广告牌和无关风景,只盯着核心路况。

通过让 AI 只专注有用的核心信息而忽略无用信息,该框架高效解决了自动驾驶模型 VLA 在处理高帧率图像时带来的超高计算量问题。相关论文已被 AI 顶会 AAAI 2026 接收。



论文地址:https://arxiv.org/pdf/2507.23318

当然,构建出强大的 AI 底座仅仅是第一步。在高度复杂的物理世界中,面向 L4 级的辅助驾驶,还必须依托于另外几个核心要素。

能力公式重构:模型 × 算力 × 数据 × 本体

小鹏提出:第二代 VLA 的突破并非单点能力升级,而是遵循 L4 能力等于「模型 × 算力 × 数据 × 本体」的 Scaling Laws(规模法则)

正如前沿 AI 技术应用不断验证的那样,单纯堆叠通用芯片算力或一味追求庞大的模型参数,往往会在实际部署时遭遇瓶颈。真正的能力护城河,必须是算法、底层硬件架构与海量数据的深度耦合。

在自动驾驶这个顶级 AI 工程问题上,要想实现真正的 L4 级自动驾驶,仅靠单一的算法模型突破是远远不够的。系统必须依托车辆这个「物理本体」,在模型、算力和数据三个维度实现高度协同。

这是一条难而正确的路。

在这其中,既包含了理解真实世界的基础:原生多模态大模型。正如上文所述,小鹏的基座模型实现「看、听、读」的感官合一,将感知理解、场景推理、行动执行统一到同一模型框架中。



同时也包含了高度优化的软硬件协同,利用有效算力打开智能的上限

小鹏在底层算力架构上进行了深度定制。依靠自研的图灵芯片,小鹏实现了「芯片 - 编译器 - 模型」的联合优化研发。通过专门开发的自动化编译器和基于芯片定制化的图灵结构模型,小鹏最大化了算力的利用率,使得模型在车端的运行速度飙升了 12 倍。



这种深度的软硬件一体化设计,正是第二代 VLA 能够实时处理海量视觉信息的底气。

在训练 AI 的过程中,还必须构筑起数据飞轮,让视觉数据的高信息密度价值得以充分释放。

一个值得关注的对比是:当前国内所有数字 AI(主要是各类大语言模型)的日调用量大约为 0.737 万亿 Token,而小鹏仅仅 20 万辆搭载第二代 VLA Ultra 的车辆,每天在车端模型上消耗的物理 AI Token 量就高达 58.8 万亿 —— 小鹏车端模型每天消耗的 Token,是全国数字 AI 日调用量的近 80 倍。

目前,小鹏已经积累了超过 50PB 的训练数据,小鹏车端的高清传感器每秒要处理高达 53 亿字节的视觉数据。

最后,这一切都需要依托强大的 AI Infra,再通过世界模型的仿真训练实现闭环。

依托领先的 AI 基础设施,自去年科技日以来,小鹏在半年内完成了 468 个模型的版本迭代。

此外为了应对现实世界中难以穷尽的 Corner Case,小鹏引入了世界模型进行闭环仿真。如今,其仿真场景库已从一年前的 3 万个激增至 50 多万个,每天在虚拟世界中进行基于强化学习的「自我对弈」,日均仿真测试里程等效于 3000 万公里的实车测试。



可以说,小鹏第二代 VLA 是一个基于端到端 AI 算法、定制芯片高度整合,由海量数据和世界模型知识共同构建的超级物理 AI 生命体。

结语

随着新一代 VLA 智能驾驶的出现,物理 AI 的实力正在逐渐展现。



何小鹏表示,基于端到端模型的辅助驾驶能力将会成为汽车行业未来三年的重要突破,它是面向完全自动驾驶的第一个版本。在小鹏内部,该技术正在以前所未有的速度迭代。

对于一家车企而言,第二代 VLA 是小鹏在自动驾驶技术路径上的一次重要探索:不同于传统驾驶系统各个模块(如感知、规划、控制)逐一优化的工程化思路,其围绕自研基座模型打造统一的物理世界智能系统,从而具备理解真实世界并持续学习、演进的能力。

随着自动驾驶技术加速迈向 AI 驱动的智能时代,这种技术体系势必成为其在下一阶段竞争中争夺主动权的关键变量。

来源:https://www.163.com/dy/article/KNC8BLD30511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

RMS-MoE模型通过检索记忆优化专家路由调度效率
AI
RMS-MoE模型通过检索记忆优化专家路由调度效率

随着大模型参数规模不断增长,混合专家(Mixture-of-Experts, MoE)架构因其稀疏激活特性,成为平衡模型性能与计算开销的主流方案。然而,在实际的Web级应用部署中,一个关键挑战日益凸显:传统MoE的路由机制通常是“无记忆”的。 试想,在搜索引擎、智能问答或多轮对话等高并发场景下,用户

热心网友
05.12
编程入门指南从零基础到理解核心概念
编程语言
编程入门指南从零基础到理解核心概念

编程十年的一点分享 在软件开发的路上走过十几年,从一个爱好者到以此为业,有些体会或许值得聊聊,就当是抛砖引玉吧。 最早接触编程,是从BASIC和C语言开始的。工作后,随着需要,陆续学习了dBase、Access这类桌面数据库的开发。真正以开发为职业,可以说始于FoxPro 5 0,之后技术栈随着项目

热心网友
05.07
编程初学者入门指南与核心思维解析
编程语言
编程初学者入门指南与核心思维解析

引言 编程,是一门实践科学。这意味着,学习它的最佳方式就是动手去敲代码。但这是否意味着,我们可以因此轻视理论的学习呢? 入门编程 如果你去各大技术社区提问“该如何入门编程”,五花八门的答案会瞬间涌来。 不过,仔细梳理一下,无外乎以下几种流派: 学院派 他们推荐从C语言入手,并辅以数据结构、操作系统等

热心网友
05.07
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”
科技数码
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”

想象一下这个场景: 你让 AI Agent 帮你修一个代码 Bug。它打开项目,读了 20 个文件,改了改,跑了一下测试,没过,又改,又跑,还是没过……来回折腾了十几轮,终于——还是没修好。 你关掉电脑,松了口气。然后收到了 API 账单。 上面的数字可能让你倒吸一口凉气——AI Agent 自主修

热心网友
05.06
OpenClaw人人养虾:接入Discord
AI
OpenClaw人人养虾:接入Discord

Discord接入:让OpenClaw成为你的社区智能管家 对于全球数亿的游戏玩家和社群爱好者来说,Discord几乎等同于线上“大本营”。那么,有没有可能让你精心搭建的Discord服务器也拥有一个聪明能干的AI助手呢?答案是完全可行。通过创建Discord Bot(机器人),你可以将OpenCl

热心网友
04.15

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

山寨币与主流币的五大核心区别及投资策略
web3.0
山寨币与主流币的五大核心区别及投资策略

主流币与山寨币在市值、技术、共识和风险上差异显著。主流币市值巨大、流动性强,技术经过长期验证,拥有全球共识和明确应用场景,适合长期配置。山寨币则市值小、流动性差,技术基础薄弱且缺乏审计,共识脆弱且多依赖炒作,价格波动剧烈且归零风险高,属于高风险投机标的。

热心网友
05.12
Bitget身份认证攻略:提升证件清晰度与缩短审核时间,快速通过验证
web3.0
Bitget身份认证攻略:提升证件清晰度与缩短审核时间,快速通过验证

进行Bitget身份认证时,除了正确上传照片,证件本身的清晰度至关重要。模糊、反光或信息不全的图片会直接导致审核失败。此外,认证申请提交后的等待时间受平台审核队列、资料完整度及网络状况等多重因素影响,高峰期可能延长。建议用户确保在光线均匀环境下拍摄高清证件照,并耐心等待系统处理,以提升一次性通过率。

热心网友
05.12
Bitget交易所下载全攻略:安卓、iOS与网页端详细安装教程
web3.0
Bitget交易所下载全攻略:安卓、iOS与网页端详细安装教程

本文详细介绍了Bitget交易所在不同设备上的下载与访问方法。安卓用户可通过官方应用商店或APK文件安装,需注意权限设置。iPhone用户需切换至非中国大陆AppStore账户下载官方App。网页端则提供最直接的访问方式,无需安装,但务必核对网址安全性。文章还补充了常见问题与安全建议,帮助用户顺利完成平台使用前的准备工作。

热心网友
05.12
Bitget新手教程:从注册到首笔交易完整指南
web3.0
Bitget新手教程:从注册到首笔交易完整指南

对于初次接触Bitget的新用户,从注册到完成第一笔交易,平台提供了一条清晰的操作路径。关键在于完成账户注册与安全设置,包括身份验证和资金密码。随后,通过法币入金通道为账户注入启动资金,并熟悉现货交易界面的基本操作。最后,在模拟交易中实践后,即可尝试小额真实交易,完成从入门到实操的完整闭环。

热心网友
05.12
Bitget新手入门指南:掌握6个核心页面位置轻松上手交易
web3.0
Bitget新手入门指南:掌握6个核心页面位置轻松上手交易

对于初次接触Bitget这类专业交易平台的新用户来说,感到无从下手是普遍现象。关键在于熟悉核心功能区的布局,特别是资产总览、现货交易、合约交易、资金划转、订单管理和个人设置这六个关键页面。掌握它们的位置和基本逻辑,就能快速理清平台操作脉络,大幅提升使用效率,避免在基础操作上耗费过多时间。

热心网友
05.12