首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
语音驾驶到来:人类迈入用嘴开车的时代

语音驾驶到来:人类迈入用嘴开车的时代

热心网友
47
转载
2026-03-16

21世纪经济报道记者何煦阳 报道

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

舱驾一体的风刮了四五年,如今已经从硬件层刮到了模型层。

2025年7月10日,马斯克在X(推特)上宣布,Grok即将登陆特斯拉。两天之后,特斯拉最新账号发帖,告诉车主现在只需要按住方向盘上的语言按钮,就能激活Grok。

Grok是马斯克旗下xAI 公司全栈自研的多模态通用人工智能大模型。2025年7月xAI发布Grok-4系列以来,Grok 的综合能力与GPT-5.2、Claude 4.6 Opus、Gemini 3.1 Pro 共同处于全球第一梯队。

Grok上车特斯拉后,特斯拉的FSD(完全无人驾驶)能力得到了极大提升。用户体验到的最新功能是,只需要动动嘴巴就能开车——“导航至机场,沿途添加一家咖啡店,并在电池电量低于 20% 时提醒我”——Grok就能自动规划好路线,并通过自动驾驶将乘客送到途经点和目的地,并到点主动为车主提示电池电量。英伟达机器人技术总监Jim Fan在2025年12月发推表示,特斯拉更新到FSD V14后已经通过了“物理图灵测试”。他已经分不清开车的到底是AI,还是真人了。

这是“舱驾一体”带来的新功能。以往车圈内所讲的舱驾一体,是在硬件层面,即用一颗芯片同时干完座舱和智驾的所有活儿。国内首先量产L2+硬件舱驾一体方案的是北汽极狐阿尔法T5,只用了一颗高通 SA8775 芯片。

这样的好处是能压缩整车成本,拉满算力利用率,降低跨域延迟。但目前能实现舱驾一体的芯片算力较低,平均在100TOPS左右,对于追求更高级别的自动驾驶与智能座舱功能的车企而言,这样的算力只能算杯水车薪。

但特斯拉将Grok与FSD融合,是数据和模型层面的舱驾一体。这要求打通座舱域的人机交互、用户行为、多模态感知域智驾域的环境感知、驾驶行为、场景决策数据的壁垒,实现全量数据的闭环共享与联合训练。同时实现座舱侧多模态大模型域智驾侧端到端自动驾驶大模型的深度协同,让整车智能系统从“分立的功能执行”,升级为具备场景理解、意图推理、全域融合的整车智能体。

国内车企很快跟进。2026年1月28日,理想汽车将自动驾驶团队并入软件本体团队,由勾晓菲统筹智能座舱与智能驾驶研发。2月3日,小鹏汽车的自动驾驶、智能座舱中心合并,新成立通用智能中心,由刘先明负责。刚过去的25年Q4财报会议上,李斌虽然没有明确命令两个部门合并,但也提到“蔚来已经为这样跨部门的融合与数据的打通,以更快地感知、决策和执行,打好了基础。”

车企到底为什么要推动舱驾融合?这给车企带来的主要收益是什么,用户又能感知到哪些显性的变化?

对于这个问题的答案,李想表示,是因为打造具身智能,为了“应对新一轮的 AI 竞争”。何小鹏则在2026年年会上认为,是因为“这两者的技术会合流,组成超级智能体”。

但他们都没有解释融合的底层原理,答案反倒要从目前没有官宣组织合并的小米,其智驾VLA技术负责人陈龙的专访中寻找。

在陈龙看来,舱驾融合的本质,是要推动座舱侧的多模态大模型与自动驾驶大模型融合,提升自动驾驶的推理能力。

小米在去年11月21日发布了由陈龙领衔的具身基座大模型 MiMo-Embodied。如果仔细阅读 MiMo-Embodied 的论文,就会发现陈龙团队为了训练这个具身基座模型,还动用了小米的MiMo-VL(Vision-Language Model,视觉 - 语言大模型)。

去年5月30日, MiMo-VL正式发布时,小米表示其能理解、推理和回答图片、视频、语言等多个任务,大幅领先国内同尺寸标杆多模态模型。MiMo-VL不仅能看懂图像重点,还能将视觉信息翻译成语言,进一步理解因果关系和进行逻辑推理,这部分能力被 MiMo-Embodied 直接拿来继承。

除此之外,论文还专门提到MiMo-Embodied架构由三个主要组件构成,其中之一就是“负责文本理解与推理的大语言模型”。虽然不清楚该模型是否是罗福莉主导开发的MiMo-V2-Flash,但加入大语言模型后, MiMo-Embodied 对语言、代码和逻辑明显更加熟悉,同时具备了语言模型独有的认知和推理能力。

MiMo-Embodied 发布后一天,陈龙接受了媒体的专访。在MiMo-VL和大语言模型的基础上,陈龙在采访中表示,他还往 MiMo-Embodied 加入了许多机器人与驾驶场景数据进行训练,所以MiMo-Embodied 其实是一个“通用具身大脑,处于VLM阶段”。到真正要用于自动驾驶中时,小米会再往“大脑”接上“小脑”,也就是“action expert”(动作专家模型)。

小米的MiMo-VL,对小鹏来说,就是其“XNGP灵犀大模型”;对理想来说,则是其“理想同学Mind GPT 3.1”。车企训练的多模态大模型都不同,但之所以与自动驾驶大模型融合,都是为了同一个理由:让智驾大模型更具备人类的通识、价值观和推理能力,更明白在物理世界驾驶时“为什么”要这么开,提高自动驾驶水平。

将Grok与FSD融合后,FSD V14.2 极大地解决了此前版本中困扰用户的微制动和突兀刹车问题,驾驶感更加平顺,被很多国外媒体评价为“丝滑”且具有“人类感”。

但Grok上车的好处还不止于此,现在Grok除了能帮助FSD更好地理解和推理人类驾驶环境外,还能够理解人类模糊的自然语言、结合车主需求与网络实时信息,最后都将其转译为可执行的导航规划:

注意,Moyer全程没有提具体的导航地点,只提出了喝饮料、洗车和吃饭三个需求,但Grok能自主为其规划最优地点和路线,还在车主两次更改需求后继续自主规划。

这种从“自己开车”到“用嘴开车”的转变,是以往车机系统很难做到的。

这跟何小鹏对把智能座舱与自动驾驶合并的回应一致:“这是为了让行车决策与人机交互不再分家。以后车在路上怎么开、人与车怎么聊,共享同一套 AI 基座模型。可以想象, 不久的将来, 你可以对它说‘带我去星巴克点杯咖啡’。这样的交互才更有温度、更拟人, 才是 AI 时代真正的高阶智能。”

虽然都做舱驾融合,但车企对模型自研的侧重不同。

对多模态大模型,理想从一开始就选择自研,现在理想同学Mind GPT 3.1具备极速响应、深度推理、多端互联等能力,与其自动驾驶大模型融合后,或许能迅速提升其智驾水平。

但小鹏在自动驾驶的物理大模型上投入更多,其第二代VLA是拆掉规则、从头研发、国内参数和数据量最大的自动驾驶模型。对小鹏来说,自动驾驶的能力得到验证之后,他们更关注自动驾驶如何反哺智能座舱。第二代VLA媒体体验日后的群访上,小鹏通用智能中心负责人刘先明表示,有信心将在自动驾驶上验证过的 AI 能力大规模迁移到座舱上。

何小鹏直言,相信汽车很快会迎来跨域融合。“汽车行业正在进入新阶段:自动驾驶是整车运动,智能座舱是整车大脑,再加上动力、底盘,我认为这四个域都在进行跨域融合中。今年8月,小鹏将推出划时代座舱产品。”

之后的智能座舱,将越来越从“被动服务”走向“主动服务”。最近小鹏在G6上更新的天玑6.0,能够通过记录面容ID,根据乘客信息,预先提供定制化的座舱服务——针对性调节车内环境、建议导航线路、推荐媒体内容,甚至在低电量时为车主推荐附近的充电站。

但当自动驾驶与智能座舱融合更深,更多具备想象力的场景正在出现:比如最近某位Cybertruck车主的FSD出现了报错,Grok不仅向车主解释了原因,还指导车主通过屏幕操作重启了FSD。

在不久后的将来,座舱能获取到的车辆信息,调动的汽车能力将越来越多。它可能会通知你:“今天可能因为天气冷,左后轮胎气压低了8磅/平方英寸,但我已经自动调整好了”;并结合对车主越来越深的了解,更针对性地给出建议:“根据您的驾驶习惯和里程数,您的刹车油大约需要在三周后更换, 需要我安排上门服务吗?

把驾驶交给AI之后,汽车不仅越来越成为车主的管家,还有可能成为你的情感伴侣。

在国内,座舱的拟人化情感交互做得较好的是蔚来。每辆蔚来车型驾驶台的中间都标配 NOMI Halo 物理交互组件,支持 240 度旋转,能精准转向说话的驾乘人员,配合数十种动态拟人表情,实现 “眼神交流” 式的交互,打破了语音助手 “只闻其声不见其人” 的冰冷感。

而特斯拉目前上车的Grok,拥有“助理”、“讲故事的人”、“精神错乱的人”三种人格,车主可以在旅行途中与Grok聊天放松,甚至让Grok扮演不同影视剧中的角色。Grok则可以通过车主的语音、面部表情、驾驶行为等多模态数据,判断车主情绪,调整交互风格。

Grok还可以为车主阅读新闻报道,介绍特斯拉软件更新带来的变化,甚至通过关联车主的X账号,根据车主的日常和社交偏好,在长途行驶中自动播放音乐,或为车主总结其关注博主最新发表的文章。

目前,Grok上车之后只是一个导航助手和对话伙伴——它不能生成或改变FSD的驾驶策略。它让“用户与汽车对话规划路线”成为现实,但它不能控制FSD的变道、刹车等操作,也不能解释驾驶决策。

就在不远的几个月,这或许将迎来改变。

2月21日,Google Deepmind 工程师 Cristian Garcia 发推表示:“FSD最大的缺点在于它无法通过语言指令控制。如果你能告诉他‘就在门口附近找个停车位’或者‘过一个街区后右转’,车主和汽车就都不用猜来猜去了”。

马斯克在下面评论:“就要来了”。

何小鹏在2026年的开工信里给出了同样的判断:“你(可以)对它说‘走前面的那条小路,绕开前面的几个红灯’”,而且他表示要在今年把Robotaxi、人形机器人、飞行汽车三大前沿物理AI业务全面落地,所以该功能或许在今年就将实现。

人类快到真正的“用嘴开车”的时候了。相比之下,现在的Grok只能叫作“用嘴导航”。

不过,自动驾驶的出现除了为了解放人类双手,还为了以优于人类司机数千甚至上万倍的水平,让驾驶过程本身更加安全。如果“用嘴开车”是为了追求智能与时髦,而非让驾驶更轻松与安全,这就本末倒置。

在自动驾驶技术真正到达人类能直接通过语言干预汽车自动驾驶策略的阶段之前,法规需要先划分基本的安全底线,明确哪些汽车功能能够放权给人类语音控制,而哪些功能不行。

2月25日,一位领克车主在无路灯高速路段发出“关闭阅读灯”指令,却被其Flyme Auo 2.0.0系统误判为“关闭全部照明”,大灯瞬间熄灭。车主多次语音重启未果,最后因视线受阻撞击护栏,所幸无人员伤亡。

去年11月,公安部主导的《机动车运行安全技术条件(征求意见稿)》发布,其中要求“汽车行驶过程中保障运行安全相关的操纵件(例如:挡位、灯光、喇叭、前风窗玻璃除霜除雾、前风窗玻璃刮水器、车窗升降、辅助制动装置和组合驾驶辅助系统激活等),应装备实体操纵件。”自动化控制的灯光,虚拟按键也要显示在屏幕首页。

今年1月,上述意见已经结束征求意见,最早可能会在今年年中正式发布,明年开始生效。

这是人类“用嘴开车”的前夜。在一片浓重的墨色里,人类还需要继续研究如何让技术、法律甚至驾驶员自身充分地为安全负责。但到了黎明,或许这也是具身智能机器人的元年在汽车上正式开启的第一天。

来源:https://www.163.com/dy/article/KO5SLEG505199NPP.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

车企研发投入对比 579亿与1亿背后的不同生存策略
科技数码
车企研发投入对比 579亿与1亿背后的不同生存策略

研发投入,始终是洞察汽车产业竞争格局的核心指标。当我们审视2025年上市车企的研发支出数据时,一幅充满张力的对比图景清晰呈现:比亚迪以接近580亿元的巨额投入遥遥领先,其研发规模甚至超过了排名紧随其后的三家车企的总和;与此同时,路特斯则展示了另一种战略决心,将超过三分之一的营业收入直接用于研发,全力

热心网友
05.13
2026北京车展闭幕,这些数据亮眼
科技数码
2026北京车展闭幕,这些数据亮眼

一场刷新全球纪录的汽车盛宴 持续十天的2026北京国际汽车展览会,在5月3日正式落下帷幕。与以往不同,本届车展首次采用了双馆联动、全域布局的模式,同时启用了中国国际展览中心(顺义馆)和首都国际会展中心,总计17个展馆,展览面积达到了惊人的38万平方米。这个数字,不仅创下了北京车展自身规模的历史新高,

热心网友
05.06
大众CEO点名要学习中国:中国人做事非常有计划性 执行力极强
业界动态
大众CEO点名要学习中国:中国人做事非常有计划性 执行力极强

大众CEO“喊话”德国同行:是时候向中国学习了 最近,“大众CEO:德国车企应向中国学习”这个话题,在网络上引发了不小的讨论。事情源于大众汽车集团CEO奥利弗·布鲁姆最近接受德国媒体采访时的一番表态,他直言不讳地指出,德国汽车工业真该好好学学中国严谨的工业规划。 要知道,布鲁姆发表这番言论的背景,正

热心网友
04.22
聚焦混动化转型,浩思动力X-Range C15直驱系统亮相北京车展
科技数码
聚焦混动化转型,浩思动力X-Range C15直驱系统亮相北京车展

浩思动力X-Range C15直驱系统将于2026北京车展首发:模块化动力总成引领平台化变革 全球领先的低排放动力系统供应商浩思动力(Horse Powertrain)已确认,将在2026年北京国际汽车展览会上正式发布其创新产品——X-Range C15直驱系统。作为X-Range增程系列的最新成员

热心网友
04.20
魏建军建议私家车10年后再年检 用OBD和车联网替代实地检测
业界动态
魏建军建议私家车10年后再年检 用OBD和车联网替代实地检测

魏建军建议私家车10年后再年检 用OBD和车联网替代实地检测 最近,长城汽车董事长魏建军的一段视频引发了广泛讨论。他针对私家车年检这个老话题,提出了几项颇具建设性的具体建议,直指当前流程中的痛点。 魏建军提到,其实从今年5月开始,国家已经启动了包括长城在内的十家车企作为试点,推行“生产企业预先检查试

热心网友
04.20

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

2026年十大加密货币交易所排名与安全选择指南
web3.0
2026年十大加密货币交易所排名与安全选择指南

本文梳理了2026年主流数字资产交易平台的特点与选择策略。重点从安全性、资产丰富度、交易体验、创新功能及合规性等维度进行分析,旨在帮助用户根据自身需求,在众多平台中做出明智选择,而非简单罗列排名。选择平台需综合考量资金安全、操作习惯与长期发展愿景。

热心网友
05.14
2026年全球十大现货交易所排名与深度评测
web3.0
2026年全球十大现货交易所排名与深度评测

本文梳理了2026年现货交易所的竞争格局,从交易深度与流动性、资产安全与合规性、用户体验与产品创新三个维度进行深度分析。文章指出,头部平台在合规与技术创新上持续领跑,新兴交易所在细分市场寻求突破,行业整体呈现出专业化、合规化与用户体验并重的发展趋势,为不同需求的用户提供了多元选择。

热心网友
05.14
2026年最佳加密货币交易平台权威评测与推荐指南
web3.0
2026年最佳加密货币交易平台权威评测与推荐指南

本文梳理了2026年主要数字资产交易平台的综合表现,从安全性、资产多样性、用户体验及创新服务等维度进行分析。榜单反映了行业向合规与专业化发展的趋势,头部平台在技术架构与风控体系上持续投入,新兴平台则凭借细分领域创新获得关注。投资者需结合自身需求,理性评估平台特点与风险。

热心网友
05.14
Aria Networks CEO解读推理技术如何改变AI网络格局
AI
Aria Networks CEO解读推理技术如何改变AI网络格局

今年四月,AI网络初创公司Aria Networks携1 25亿美元融资高调登场,并向业界抛出了一个直指核心的判断:下一阶段AI基础设施的竞争,焦点已不仅仅是堆砌更多的GPU,而在于能否构建一个能充分释放这些算力潜能的“神经网络”。 这家由前Arista和Juniper高管创立、总部位于帕洛阿尔托的

热心网友
05.14
英伟达MIT华人团队开源技术大幅降低大模型推理内存消耗
AI
英伟达MIT华人团队开源技术大幅降低大模型推理内存消耗

仅凭一张家用RTX 4090显卡的24GB显存,就能流畅运行一个拥有320亿参数的AI大模型,一口气读完6份长文档并自动生成周报?这并非极客魔改,而是来自MIT、英伟达与浙江大学研究者的最新突破。 这项名为TriAttention的技术,精准瞄准了大模型推理中的核心瓶颈——KV缓存显存占用。其核心思

热心网友
05.14