理想汽车面对模仿者追赶选择更艰难的道路

时间：2026-06-22 12:55

理想汽车从产品定义转向底层技术全栈自研，推出3DViT、马赫VLA、自研芯片马赫M100和星环OS，以提升智驾安全、能力和效率。通过架构创新和自主研发，目标在2025年底实现全面超越人类驾驶员的智驾系统，并构建未来机器人技术储备。

上半场靠产品定义取胜，下半场则依赖底层技术能力。

6月15日，理想汽车举办了一场别开生面的发布会。主角并非传统意义上的车辆，而是“AI如何走进物理世界”。

在“Livis Day理想汽车软件与具身智能发布会”的展示环节，理想空间智能产品经理吕怡然对着车辆说了一句：后排小朋友困了，帮我哄他睡觉吧。

话音刚落，车内的灯光渐暗，欢快的音乐切换成轻柔的摇篮曲，空调风量自动调至最低档，座椅缓缓放平；主动悬架配合着伸缩，让整个车身左右缓慢摇晃。整个车厢从适合开派对的氛围，瞬间转变为适合婴儿安睡的环境。无需手动操作菜单或点击按钮，理想汽车的具身智能系统Livis理解了这句话，并自主完成了所有操作。

这一场景看似简单，实则难度极高。如今AI能够帮我们写代码、作图、制作视频，但一旦要求它走出屏幕，在真实世界中执行任务，挑战等级完全不同。以驾驶为例，我们仍然需要自己开车、停车，在复杂路口判断交警手势。

李想在台上提出了一个观点：如今的智能手机和智能汽车，实际上都不够智能。它们本质上仍是功能驱动，而非真正的智能体。

那么问题来了：AI要走出屏幕，第一站会落在哪里？

理想的答案是汽车。仔细想想很有道理：汽车每天都在真实道路上行驶，需要感知、决策、控制；支撑一辆车的感知系统、模型、芯片、控制系统和操作系统，恰恰是通用人形机器人的技术底座。而在所有机器人形态中，只有汽车已经是一个万亿级的付费市场。

一位关注汽车产业的投资人直言，他现在评估一家车企，只看一件事：AI能力。具体来说就是芯片、系统、模型这三层，掌握得越多，未来的发展天花板就越高。在他看来，谁先在车这个平台上跑通全栈技术，谁就先拿到了AI时代最重要的一张入场券。

而理想从2024年星环OS立项，到2024年自研芯片启动，再到2024年大模型立项，这张牌已经打了五年。

01. 今天的智驾，到底差在哪？

李想说今天的车不智能，那在他眼里，什么才算真正的智能？

他给“真正的智能”下了定义：真正的具身智能汽车，必须同时扮演四种角色——一辆电动车、一位职业司机、一台AI计算机、一位生活助手。其中，电动车和AI计算机是“具身”，职业司机和生活助手是“智能”。

对照这个标准，行业过去对“智能汽车”的那套定义（软件定义硬件、能联网、能OTA升级）讲的都是功能，离真正的智能体还相差甚远。

具体差在哪里，从普通车主的实际体验来说，主要体现在三个维度。

首先是安全。当前的智驾系统遇到复杂、不熟悉的场景时，标准动作是退出，把方向盘交还给驾驶员。这在法规上完全合规，但对人来说恰恰是最危险的时刻。李想表示，接近一半的智驾事故发生在接管的那一瞬间，驾驶员毫无防备。

再看能力。目前的智驾本质上只会三件事：向前开、向左转、向右转。李想在现场问观众：你对哪辆车的智驾倒车能力是满意的？没有人举手。它既不会像人一样在窄路里倒车腾挪，也不会在遇到危险时自己找个地方靠边停下。

最后是效率。你最不愿意在什么时候用智驾？赶时间、走胡同的时候。因为这些时候，“你得时刻盯着随时准备接管”，其实比自己开还慢、还累。

安全、能力、效率上的差距，根源在于：今天的智驾系统能够“看见”，但感知层没有理解“语义”的能力。

激光雷达的线数从128线堆到512线，但它看不懂红绿灯的颜色、路牌上的“前方施工”，也看不懂保安的手势。感知层看不懂，在决策层再怎么堆数据、调参数，上限都不高。这并非靠“堆数据、调参数”就能解决，而是一个架构问题。

理想的解法，正是从架构层面着手。

感知层，它首次让3D ViT（三维视觉感知模型）上了车。简单来说，就是实时将场景中每一个对象在三维空间里的位置、姿态、动作甚至颜色都构建出来，让系统从“看见”进化到“看懂”。现场演示时，3D ViT将台下全场观众的姿态瞬间还原成一个三维世界，连后排的文字都能识别出来。

决策层，理想将整套智驾架构推倒重来，推出了马赫VLA（视觉-语言-行动大模型）。过去，感知、决策、执行分属不同模块，中间需要“交接”，一交接就有延迟；现在，从“看见”到“决定怎么开”都在同一个大模型里完成，一气呵成。

底层架构的重构让链路缩短，反应速度提升到了0.28秒。普通人从发现危险到踩下刹车，平均需要0.45秒，顶级F1车手的生理极限是0.25秒，0.28秒已经逼近人类极限——多出来的这0.17秒，在120公里时速下，相当于多出约6米的制动响应距离，差不多是一辆劳斯莱斯幻影的车长。

理想汽车基座模型负责人詹锟

马赫VLA对标的是特斯拉。理想汽车基座模型负责人詹锟承诺，今年第四季度，理想的智驾模型将对齐FSD V14。

在发布会上，詹锟提到，自己上个月飞了趟硅谷，连续两周深度体验了特斯拉最新的FSD V14.3，两点感受：第一，特斯拉真的太强大了；第二，压力也真的非常大。

为了兑现承诺，理想也给出了三个明确的交付节点：7月，智驾效率整体提升30%；9月，实现全场景自主倒车、主动停车观察这类复杂场景的独立处理；12月，安全和效率全面超越人类驾驶员。

这套从感知到决策的重构，依靠的是更强的模型。模型越复杂，对算力的要求就越高；芯片和操作系统如果跟不上，模型的潜力就难以发挥。而这两件最底层、最烧钱的事，多数车企选择外购，理想却偏偏自己造。

02. 理想为什么要自己造芯片？

当一家车企说要自己造芯片，外界的第一反应往往是：买英伟达的不行吗？能用，还省事。理想为什么非要自己从头造？

理想算过一笔账，发现买来的方案在AI时代不够用了。

一个原因是，光靠软件拉不开差距。使用通用芯片，架构层面的优化空间被锁死，能做的差异化只有软件层。

更核心的原因是效率的天花板。过去几十年，计算机行业享受了摩尔定律的红利，芯片上的晶体管密度每两年翻倍，性能随之水涨船高。但2010年之后，每一代制程带来的提升从翻倍降到30%、20%、10%。供给在放缓，AI对算力的需求却在猛涨，这是行业共同面临的难题。

而专用架构芯片可以绕开这个天花板，在特定任务上做到通用芯片无法实现的效率。

因此，理想CTO谢炎在2024年带队启动芯片设计时的想法是：不能只造一颗比过去更快的芯片，要造一种完全不同的芯片。

理想CTO谢炎

不同在哪里？传统芯片采用冯·诺依曼架构，统治了计算机行业70年，本质是“一条指令接一条指令”地顺序执行，大量晶体管用于缓存、调度这些“管理开销”。而AI的计算天然是并行的，本该一起开工的活被硬塞进一条排队的流水线，效率自然提不上去。

理想自研的马赫M100走的是另一条路线：数据流架构。

打个比方，传统芯片像一个厨房里有一个总厨统一发号施令，规模一大，总厨的统筹能力就决定了上限；数据流架构干脆撤掉了总厨，每个工位的食材一到就开工，做完直接递给下一个工位。

过去通用计算的规模不够大，这条路线没有用武之地；直到AI时代计算量出现数量级的跃升，它的优势才真正显现出来。

这样造出来的马赫M100，采用5nm车规工艺，单颗算力1280 TOPS，双芯2560 TOPS。但比算力数字更能说明问题的是效率：因为架构专为AI而设计，它的实际运行效率超过82%，这个数字，主流架构很难达到。

更值得一提的是，这颗车规芯片的架构论文入选了计算机体系结构领域的顶级会议ISCA 2026的工业论文分区（Industry Track）。这个分区专门收录来自产业界的架构创新成果。作为该分区设立以来全球第一家入选的车企，理想将在6月底与谷歌、Meta、美光等公司同台分享。

光有好芯片还不够。芯片上面如果跑别人的系统，潜力也发挥不出来。谢炎在台上问了全场一个问题：苹果和安卓，哪个更安全？多数人回答苹果。原因是苹果把芯片和系统放在一起设计。手机被攻击，泄露的是隐私；车被攻击，威胁的是生命。

因此，理想自研了星环OS，这是最底层的整车操作系统，车机和智驾都是跑在它上面的“应用”。相比行业通用的AUTOSAR（汽车软件行业标准架构），星环OS响应速度快了1倍，稳定性高了5倍；落到体感上，120km/h下AEB的刹停距离能再缩短7米。

当芯片和OS都掌握在自己手里，最直接的体现就是系统响应的“快”。这0.28秒是怎么做到的？视觉输入的时延降低了47%，模型推理的链路缩短了43%，操作系统的调度降低了28%，线控底盘的响应降低了38%，四个层级各自优化，端到端总时延最终下降了40%。这四层分别是视觉感知、模型推理、操作系统、线控底盘，背后对应四个技术团队。

以刹车这个动作为例，采用供应商方案的车企，芯片、系统、底盘背后各站着一家不同的供应商，接口封闭，优化只能在自己负责的那一层里打转；理想这四层全是自己的，可以让四层共同为“快”这一个目标让路。

说白了，买方案的车企手里只有一层的优化权；自研全栈的车企手里有整条链路的优化权。

这个路线还有实实在在的成本优势，而且卖得越多越划算。

谢炎今年5月时算过一笔账：如果今年卖出的车全部搭载马赫M100，一年省下来的钱就超过三年的芯片研发费用，更别说这颗芯片还能用两三年。凭借高集成度，新一代车型直接取消了上一代平台的一个域控制器，每台车省下一千多块。

星环OS也一样。理想2025年已经把这套自研系统开源，成为全球首家开源整车操作系统的车企，据估算能帮整个行业每年省下一两百亿的重复研发投入。

所以今年电池、存储芯片价格集体上行，同行大多只能涨价、把成本转嫁给用户，理想却能靠“技术降本”消化压力，全系车型没有同步涨价，新款车型普遍硬件升级但不加价。

往更深一层看，全栈自研真正的壁垒，是把技术转化成了组织能力。

英伟达做通用芯片，必须服务全球所有AI应用，只能做最大公约数；而理想的芯片只需要解一道题：让自家的车在中国道路上跑得最好。因为目标清晰，芯片团队和算法团队从定义阶段就可以坐在一起，算法需要什么，芯片就设计什么。这种从底层硬件到上层软件完全咬合的研发体系，外部供应商给不了，买方案的车企也学不会。这才是全栈自研最核心的价值。

03. 增程被跟进、多屏成标配之后，理想的下一张牌

把时间线拉长，更能看懂理想为什么要押重注去造一套底层技术体系。

理想的上半场，赢在对中国家庭用车需求的深刻洞察。要大空间、要冰箱彩电大沙发、要一家老小坐得舒服，它做出了理想ONE，成为首个千亿营收的新势力车企。

但随着行业日趋成熟，增程式技术被跟进，多屏布局成为标配，这种靠“产品定义建立的优势”正在被逐渐抹平——这并非理想一家的问题，而是所有靠产品定义驱动的公司在行业成熟期都会遇到的困境。

要打破这层天花板，必须建立一种更底层、别人难以复制的“系统化能力”。

星环OS、马赫M100芯片、马赫VLA大模型、3D ViT感知模型、全线控底盘……今天展示的技术，不是为了应对眼前的竞争突击打造，而是五年前，几乎没人讨论具身智能时，就已经开始的长期投入。

这套长期逻辑，从今年一季度的几个动作可以得到印证。逐步停产停售正热销的L系列、拒绝降价清库存、为跨年交付的i6用户自掏腰包补贴5亿购置税差额……单看一个季度的账本，每一步都是在主动让出利润。但结合它账上近千亿的现金储备，以及连续六年加码研发、AI投入占比过半来看，逻辑就清晰了：理想看重的不是一时的交付数字，而是未来五年甚至十年的核心竞争力。

为了让这套技术体系运转得更快，理想在2026年初重组了研发架构，按照“造硅基人”的逻辑分成了Infra、基座模型、软件本体、硬件本体、评估五个团队。

结果是，智驾模型的训练迭代频率从两周一次大幅缩短到一天一次。在同样的时间里，它能完成更多的试错循环。这种迭代速度上的差距，时间一拉长，就是产品体验上的代差。

所以，对手可以复制屏幕布局、增程系统，但很难在短时间内复制一整套从芯片到OS再到大模型、并且已经高效运转了多年的研发体系。

李想的判断是，自动驾驶只是上半场，通用人形机器人才是下半场，而未来购买L4自动驾驶汽车的用户与购买家庭机器人的用户，重合度高达90%。如果这个判断成立，那么理想这五年在全栈自研上的投入，其实是在用一个已经跑通的万亿级市场，为下一个更大的市场做技术储备。

如果它押对了，意义就不止是销量和市值，而是一个更有价值的商业命题：中国的科技产业，到底能不能长出一家靠系统性技术创新立身的公司。

这种“用一个成熟业务养一套底层技术，再用底层技术打开更大市场”的路径，科技史上有过先例。亚马逊当年为了解决自己内部的服务器调度问题，搭建了AWS，最后发现这套能力本身就是生意，它从一家零售公司成长为全球科技基础设施的提供商。

理想现在走的，正是这一条路的中国版本。上半场靠产品定义，下半场靠底层能力，这是理想押注的逻辑，也是它接下来要证明的事情。

来源：https://www.163.com/dy/article/KVNGGNIP05564B6E.html

理想

上一篇MTT AIBOOK预装龙虾开机即用 下一篇郝景芳争议引发AI代笔一半内容的创作边界思考

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。