具身智能究竟与造车有何关联?这是理想汽车CEO李想在LiV Day上主动提出的关键问题。

过去一年,“具身智能”一词频频被提及,但一家汽车制造商为何也要涉足这一领域?
李想的回答直截了当:如今的传统智能汽车,远未达到真正的智能水准。
如果你开过任何一款号称“智能”的电动车,就会明白他的意思。这些车本质上仍属于“功能驱动”——自动泊车是一个功能,高速领航是一个功能,语音控制车窗也是一个功能。它们是被动调用的工具,而非具备自主意识的个体。一旦遇到系统未预见的场景,你只能接管操控;它的反应比你迟缓,判断力也比你薄弱。
这能算智能吗?
因此,理想汽车提出了一套完整的定义:真正的具身智能汽车,应当是一辆能保护人类安全、独立完成任务、且效率超越人类的汽车。
而造车,恰恰是具身智能最合理且最具迫切性的落地载体。
为什么是车?车就是最佳的“身体”
具身智能的核心在于,智能体必须拥有一个物理身体,能够在真实世界中感知、行动和交互。而汽车,正是人类社会中规模最大、结构最复杂、最需要智能体能力的物理设备之一。
更重要的是,汽车每天都融入人的生活。通勤、旅行、接送家人——车是最亲密的出行伙伴。如果能让这辆车真正变得“智能”,不再只是弹出菜单,而是像专业司机那样代你驾驶、像生活助手那样替你处理事务,这才是具身智能的真实价值。
理想汽车将这一定义拆解为四个角色:电动车、职业司机、AI计算机、生活助手。四者集于一身,才构成具身智能汽车。
这不是功能的简单堆砌,而是角色的深度融合。当你坐进这样一辆车,你无需“操作”它,只需“告诉”它。它将自行思考、自主行动、自我学习。
大脑如何构建?语言智能+机器智能,缺一不可
如果说车身是躯体,那么什么才是大脑?
人脑并非单一中枢统管一切,而是依靠四个独立功能区并行运转。理想汽车在设计具身智能大脑时,也采用了类似的分体式架构:语言智能负责理解指令、推演行动方案,机器智能负责三维视觉感知与躯体动作控制。
语言智能:两个“马赫”,各司其职
在语言智能领域,理想汽车推出了两个模型:马赫Mind-Pro和马赫Mind-Edge。
马赫Mind-Pro是一款云端Agent大模型。它采用无损Token压缩技术,整体Token平均消耗降低38%,任务完成率和推理准确率保持零衰减。其TPS(每秒Token生成量)峰值达到208 token/s,是主流Agent模型推理效率的两倍以上。
马赫Mind-Edge则是端侧原生具身智能体。它基于车载芯片和车辆硬件原生设计,采用多模态流式时序建模,具备全天候主动感知、人车交互、自主控车能力,且所有运算均在车端本地完成——低延迟、高可靠、数据不上传。它就像一位时刻在车内的私人助理,即便离线也能实时照看你的家人。
机器智能:从“看见”到“看懂”
机器智能的核心,是今年5月随全新理想L9首发的马赫VLA。
它并非传统的模块化辅助驾驶。传统架构中,感知、预测、规划三个模块各司其职,效率低下且结果易错。而马赫VLA是一个原生多模态MoE大模型——让看见、理解、思考和行动从一开始就在同一个框架内彻底对齐。
最直观的变化是:3D ViT行业首次上车。以往智能驾驶系统只能处理2D图像,如今它能实时构建每个人在三维空间中的精确位置、姿态和动作。系统不再仅仅是“看见”物理世界,而是真正“看懂”物理世界。
数据也能充分说明问题。马赫VLA背后,算力、数据、模型规模同步跃升:算力方面,双马赫M100提供2560TOPS算力;模仿学习数据量增加50%,强化学习数据量增加15倍;行泊一体模型参数量增加10倍,TPS增大15倍。
至于效果,截至2026年6月14日,理想全系车型智能辅助驾驶系统主动避险累计超过1727万次,重大避险达55671次。马赫VLA的综合反应速度达到0.28秒,比普通人类驾驶员0.45秒的平均反应速度快约40%,已逼近顶级F1车手0.25秒的人类生理极限。在120km/h时速下,这0.17秒的差距意味着可提前6米完成刹停。
这种反应速度并非单纯靠硬件堆砌而来。理想汽车对全链路进行了深度重构:视觉输入时延优化47%,模型推理链路缩短43%,线控底盘响应时延降低38%,操作系统调度编排时延降低28%。最终实现端到端时延优化40%。
更值得关注的是能力涌现。马赫VLA已能实现自主倒车让路、识别交警手势、应对低矮不规则障碍物、穿越无车道线的雨夜窄路——这些场景依靠传统规则逻辑几乎无法实现,但通过大规模模仿学习和强化学习的混合训练,它自己学会了。
自研芯片马赫M100:不是为了造芯片而造芯片
马赫VLA能够实现0.28秒的反应速度,背后不仅有算法支撑,更离不开一个关键基础:一颗为AI而生的芯片。通用计算时代,冯·诺依曼架构(指令驱动计算)统治了七十年。但AI计算天然是数据驱动的——数据并行流动,计算随数据而动。用旧架构硬跑AI模型,效率低下、浪费严重。
理想汽车从2022年立项,历经三年半,设计出了一种全新的数据流架构芯片——马赫M100,全球首款量产的动态数据流AI芯片。它让数据的流动驱动计算的发生,架构完全围绕AI的计算形态来设计。参数方面:5纳米车规级工艺,单芯片算力1280TOPS,是目前全球量产性能最强的车规级推理芯片。更重要的是,得益于数据流架构,其实际运行效率超过82%——许多标称算力很高的芯片,实际效率往往只有一半。
马赫M100的能力远不止于辅助驾驶。如今它已能跑通车上所有智能化场景:运行大语言模型、支撑Agent、驱动具身智能。运行35B参数大语言模型时,prefill速度达到顶尖桌面级AI超级计算机的2.7倍。
基于马赫M100,理想汽车构建了完整的具身智能系统:芯片是“心脏”,感知系统是“眼睛”,马赫模型是“大脑”,线控底盘和能源系统是“手脚”,星环OS是“神经系统”,实现“感知-决策-执行”全链路融合。
写在最后
今年,理想汽车的OTA有三个重要节点;
7月:辅助驾驶的整体效率提升30%,以及利用主动悬架的便捷换胎能力和地图出行Agent。
9月:学习人类的能力,独立处理复杂场景,包括全场景自主倒车、路面学习能力。此外,Agent可以连接你的电脑和手机,CarPlay及其他手车互联功能将一同上线。
12月:让Livis的安全和效率超越人类,实现反应速度比人快56%。同时还将实现舱外识别切换账号、识别交警手势等能力。
回到最初的问题:具身智能,跟造车到底有什么关系?
造车,是具身智能最理想的落地场景。因为汽车是人类社会中最复杂、最普及、最需要智能体能力的物理平台。而具身智能,正是让这辆车从“功能驱动”进化为“自主智能体”的唯一路径。
过去十年,理想汽车创造了一个移动的家——大空间、多屏幕、舒适的座椅、智能座舱。下一个十年,他们要做的,是给这个家赋予生命。
正如李想在发布会结尾所说:“这就是我们这家公司存在的意义,也希望可以和所有人一起见证这个全新的时代。”
