上半场靠产品定义取胜,下半场则依赖底层技术能力。
6月15日,理想汽车举办了一场别开生面的发布会。主角并非传统意义上的车辆,而是“AI如何走进物理世界”。
在“Livis Day理想汽车软件与具身智能发布会”的展示环节,理想空间智能产品经理吕怡然对着车辆说了一句:后排小朋友困了,帮我哄他睡觉吧。
话音刚落,车内的灯光渐暗,欢快的音乐切换成轻柔的摇篮曲,空调风量自动调至最低档,座椅缓缓放平;主动悬架配合着伸缩,让整个车身左右缓慢摇晃。整个车厢从适合开派对的氛围,瞬间转变为适合婴儿安睡的环境。无需手动操作菜单或点击按钮,理想汽车的具身智能系统Livis理解了这句话,并自主完成了所有操作。
这一场景看似简单,实则难度极高。如今AI能够帮我们写代码、作图、制作视频,但一旦要求它走出屏幕,在真实世界中执行任务,挑战等级完全不同。以驾驶为例,我们仍然需要自己开车、停车,在复杂路口判断交警手势。
李想在台上提出了一个观点:如今的智能手机和智能汽车,实际上都不够智能。它们本质上仍是功能驱动,而非真正的智能体。
那么问题来了:AI要走出屏幕,第一站会落在哪里?
理想的答案是汽车。仔细想想很有道理:汽车每天都在真实道路上行驶,需要感知、决策、控制;支撑一辆车的感知系统、模型、芯片、控制系统和操作系统,恰恰是通用人形机器人的技术底座。而在所有机器人形态中,只有汽车已经是一个万亿级的付费市场。
一位关注汽车产业的投资人直言,他现在评估一家车企,只看一件事:AI能力。具体来说就是芯片、系统、模型这三层,掌握得越多,未来的发展天花板就越高。在他看来,谁先在车这个平台上跑通全栈技术,谁就先拿到了AI时代最重要的一张入场券。
而理想从2024年星环OS立项,到2024年自研芯片启动,再到2024年大模型立项,这张牌已经打了五年。
01. 今天的智驾,到底差在哪?
李想说今天的车不智能,那在他眼里,什么才算真正的智能?
他给“真正的智能”下了定义:真正的具身智能汽车,必须同时扮演四种角色——一辆电动车、一位职业司机、一台AI计算机、一位生活助手。其中,电动车和AI计算机是“具身”,职业司机和生活助手是“智能”。
对照这个标准,行业过去对“智能汽车”的那套定义(软件定义硬件、能联网、能OTA升级)讲的都是功能,离真正的智能体还相差甚远。
具体差在哪里,从普通车主的实际体验来说,主要体现在三个维度。
首先是安全。当前的智驾系统遇到复杂、不熟悉的场景时,标准动作是退出,把方向盘交还给驾驶员。这在法规上完全合规,但对人来说恰恰是最危险的时刻。李想表示,接近一半的智驾事故发生在接管的那一瞬间,驾驶员毫无防备。
再看能力。目前的智驾本质上只会三件事:向前开、向左转、向右转。李想在现场问观众:你对哪辆车的智驾倒车能力是满意的?没有人举手。它既不会像人一样在窄路里倒车腾挪,也不会在遇到危险时自己找个地方靠边停下。
最后是效率。你最不愿意在什么时候用智驾?赶时间、走胡同的时候。因为这些时候,“你得时刻盯着随时准备接管”,其实比自己开还慢、还累。
安全、能力、效率上的差距,根源在于:今天的智驾系统能够“看见”,但感知层没有理解“语义”的能力。
激光雷达的线数从128线堆到512线,但它看不懂红绿灯的颜色、路牌上的“前方施工”,也看不懂保安的手势。感知层看不懂,在决策层再怎么堆数据、调参数,上限都不高。这并非靠“堆数据、调参数”就能解决,而是一个架构问题。
理想的解法,正是从架构层面着手。
感知层,它首次让3D ViT(三维视觉感知模型)上了车。简单来说,就是实时将场景中每一个对象在三维空间里的位置、姿态、动作甚至颜色都构建出来,让系统从“看见”进化到“看懂”。现场演示时,3D ViT将台下全场观众的姿态瞬间还原成一个三维世界,连后排的文字都能识别出来。
决策层,理想将整套智驾架构推倒重来,推出了马赫VLA(视觉-语言-行动大模型)。过去,感知、决策、执行分属不同模块,中间需要“交接”,一交接就有延迟;现在,从“看见”到“决定怎么开”都在同一个大模型里完成,一气呵成。
底层架构的重构让链路缩短,反应速度提升到了0.28秒。普通人从发现危险到踩下刹车,平均需要0.45秒,顶级F1车手的生理极限是0.25秒,0.28秒已经逼近人类极限——多出来的这0.17秒,在120公里时速下,相当于多出约6米的制动响应距离,差不多是一辆劳斯莱斯幻影的车长。

理想汽车基座模型负责人詹锟
马赫VLA对标的是特斯拉。理想汽车基座模型负责人詹锟承诺,今年第四季度,理想的智驾模型将对齐FSD V14。
在发布会上,詹锟提到,自己上个月飞了趟硅谷,连续两周深度体验了特斯拉最新的FSD V14.3,两点感受:第一,特斯拉真的太强大了;第二,压力也真的非常大。
为了兑现承诺,理想也给出了三个明确的交付节点:7月,智驾效率整体提升30%;9月,实现全场景自主倒车、主动停车观察这类复杂场景的独立处理;12月,安全和效率全面超越人类驾驶员。
这套从感知到决策的重构,依靠的是更强的模型。模型越复杂,对算力的要求就越高;芯片和操作系统如果跟不上,模型的潜力就难以发挥。而这两件最底层、最烧钱的事,多数车企选择外购,理想却偏偏自己造。
02. 理想为什么要自己造芯片?
当一家车企说要自己造芯片,外界的第一反应往往是:买英伟达的不行吗?能用,还省事。理想为什么非要自己从头造?
理想算过一笔账,发现买来的方案在AI时代不够用了。
一个原因是,光靠软件拉不开差距。使用通用芯片,架构层面的优化空间被锁死,能做的差异化只有软件层。
更核心的原因是效率的天花板。过去几十年,计算机行业享受了摩尔定律的红利,芯片上的晶体管密度每两年翻倍,性能随之水涨船高。但2010年之后,每一代制程带来的提升从翻倍降到30%、20%、10%。供给在放缓,AI对算力的需求却在猛涨,这是行业共同面临的难题。
而专用架构芯片可以绕开这个天花板,在特定任务上做到通用芯片无法实现的效率。
因此,理想CTO谢炎在2024年带队启动芯片设计时的想法是:不能只造一颗比过去更快的芯片,要造一种完全不同的芯片。

理想CTO谢炎
不同在哪里?传统芯片采用冯·诺依曼架构,统治了计算机行业70年,本质是“一条指令接一条指令”地顺序执行,大量晶体管用于缓存、调度这些“管理开销”。而AI的计算天然是并行的,本该一起开工的活被硬塞进一条排队的流水线,效率自然提不上去。
理想自研的马赫M100走的是另一条路线:数据流架构。
打个比方,传统芯片像一个厨房里有一个总厨统一发号施令,规模一大,总厨的统筹能力就决定了上限;数据流架构干脆撤掉了总厨,每个工位的食材一到就开工,做完直接递给下一个工位。
过去通用计算的规模不够大,这条路线没有用武之地;直到AI时代计算量出现数量级的跃升,它的优势才真正显现出来。
这样造出来的马赫M100,采用5nm车规工艺,单颗算力1280 TOPS,双芯2560 TOPS。但比算力数字更能说明问题的是效率:因为架构专为AI而设计,它的实际运行效率超过82%,这个数字,主流架构很难达到。
更值得一提的是,这颗车规芯片的架构论文入选了计算机体系结构领域的顶级会议ISCA 2026的工业论文分区(Industry Track)。这个分区专门收录来自产业界的架构创新成果。作为该分区设立以来全球第一家入选的车企,理想将在6月底与谷歌、Meta、美光等公司同台分享。
光有好芯片还不够。芯片上面如果跑别人的系统,潜力也发挥不出来。谢炎在台上问了全场一个问题:苹果和安卓,哪个更安全?多数人回答苹果。原因是苹果把芯片和系统放在一起设计。手机被攻击,泄露的是隐私;车被攻击,威胁的是生命。
因此,理想自研了星环OS,这是最底层的整车操作系统,车机和智驾都是跑在它上面的“应用”。相比行业通用的AUTOSAR(汽车软件行业标准架构),星环OS响应速度快了1倍,稳定性高了5倍;落到体感上,120km/h下AEB的刹停距离能再缩短7米。
当芯片和OS都掌握在自己手里,最直接的体现就是系统响应的“快”。这0.28秒是怎么做到的?视觉输入的时延降低了47%,模型推理的链路缩短了43%,操作系统的调度降低了28%,线控底盘的响应降低了38%,四个层级各自优化,端到端总时延最终下降了40%。这四层分别是视觉感知、模型推理、操作系统、线控底盘,背后对应四个技术团队。
以刹车这个动作为例,采用供应商方案的车企,芯片、系统、底盘背后各站着一家不同的供应商,接口封闭,优化只能在自己负责的那一层里打转;理想这四层全是自己的,可以让四层共同为“快”这一个目标让路。
说白了,买方案的车企手里只有一层的优化权;自研全栈的车企手里有整条链路的优化权。
这个路线还有实实在在的成本优势,而且卖得越多越划算。
谢炎今年5月时算过一笔账:如果今年卖出的车全部搭载马赫M100,一年省下来的钱就超过三年的芯片研发费用,更别说这颗芯片还能用两三年。凭借高集成度,新一代车型直接取消了上一代平台的一个域控制器,每台车省下一千多块。
星环OS也一样。理想2025年已经把这套自研系统开源,成为全球首家开源整车操作系统的车企,据估算能帮整个行业每年省下一两百亿的重复研发投入。
所以今年电池、存储芯片价格集体上行,同行大多只能涨价、把成本转嫁给用户,理想却能靠“技术降本”消化压力,全系车型没有同步涨价,新款车型普遍硬件升级但不加价。
往更深一层看,全栈自研真正的壁垒,是把技术转化成了组织能力。
英伟达做通用芯片,必须服务全球所有AI应用,只能做最大公约数;而理想的芯片只需要解一道题:让自家的车在中国道路上跑得最好。因为目标清晰,芯片团队和算法团队从定义阶段就可以坐在一起,算法需要什么,芯片就设计什么。这种从底层硬件到上层软件完全咬合的研发体系,外部供应商给不了,买方案的车企也学不会。这才是全栈自研最核心的价值。
03. 增程被跟进、多屏成标配之后,理想的下一张牌
把时间线拉长,更能看懂理想为什么要押重注去造一套底层技术体系。
理想的上半场,赢在对中国家庭用车需求的深刻洞察。要大空间、要冰箱彩电大沙发、要一家老小坐得舒服,它做出了理想ONE,成为首个千亿营收的新势力车企。
但随着行业日趋成熟,增程式技术被跟进,多屏布局成为标配,这种靠“产品定义建立的优势”正在被逐渐抹平——这并非理想一家的问题,而是所有靠产品定义驱动的公司在行业成熟期都会遇到的困境。

要打破这层天花板,必须建立一种更底层、别人难以复制的“系统化能力”。
星环OS、马赫M100芯片、马赫VLA大模型、3D ViT感知模型、全线控底盘……今天展示的技术,不是为了应对眼前的竞争突击打造,而是五年前,几乎没人讨论具身智能时,就已经开始的长期投入。
这套长期逻辑,从今年一季度的几个动作可以得到印证。逐步停产停售正热销的L系列、拒绝降价清库存、为跨年交付的i6用户自掏腰包补贴5亿购置税差额……单看一个季度的账本,每一步都是在主动让出利润。但结合它账上近千亿的现金储备,以及连续六年加码研发、AI投入占比过半来看,逻辑就清晰了:理想看重的不是一时的交付数字,而是未来五年甚至十年的核心竞争力。
为了让这套技术体系运转得更快,理想在2026年初重组了研发架构,按照“造硅基人”的逻辑分成了Infra、基座模型、软件本体、硬件本体、评估五个团队。
结果是,智驾模型的训练迭代频率从两周一次大幅缩短到一天一次。在同样的时间里,它能完成更多的试错循环。这种迭代速度上的差距,时间一拉长,就是产品体验上的代差。
所以,对手可以复制屏幕布局、增程系统,但很难在短时间内复制一整套从芯片到OS再到大模型、并且已经高效运转了多年的研发体系。
李想的判断是,自动驾驶只是上半场,通用人形机器人才是下半场,而未来购买L4自动驾驶汽车的用户与购买家庭机器人的用户,重合度高达90%。如果这个判断成立,那么理想这五年在全栈自研上的投入,其实是在用一个已经跑通的万亿级市场,为下一个更大的市场做技术储备。
如果它押对了,意义就不止是销量和市值,而是一个更有价值的商业命题:中国的科技产业,到底能不能长出一家靠系统性技术创新立身的公司。
这种“用一个成熟业务养一套底层技术,再用底层技术打开更大市场”的路径,科技史上有过先例。亚马逊当年为了解决自己内部的服务器调度问题,搭建了AWS,最后发现这套能力本身就是生意,它从一家零售公司成长为全球科技基础设施的提供商。
理想现在走的,正是这一条路的中国版本。上半场靠产品定义,下半场靠底层能力,这是理想押注的逻辑,也是它接下来要证明的事情。
