存算一体芯片赛道解析：后摩的核心竞争壁垒

首页/科技数码/文章详情

存算一体芯片赛道解析：后摩的核心竞争壁垒｜WAIC 2025

时间：2025-12-16 18:04

“四年前创业时，我常被问道：存算一体那么好，为什么别人不做？”后摩智能创始人兼CEO吴强深有体会，“现在一些上市公司或者即将上市的公司都说要布局存算一体，没有人再问四年前的问题，大家意识到了存算一体

热闹的存算一体芯片赛道里，后摩的竞争壁垒是什么？｜WAIC 2025

“四年前创业时，我常被问道：存算一体那么好，为什么别人不做？”后摩智能创始人兼CEO吴强深有体会，“现在一些上市公司或者即将上市的公司都说要布局存算一体，没有人再问四年前的问题，大家意识到了存算一体芯片对于大模型的优势。”

存算一体芯片的赛道过去几年确实十分热闹，国内就有十多家公司布局不同技术路线、不同算力的存算一体芯片。

后摩的壁垒是什么？吴强说，“看论文做一个测试芯片，证明技术原理不难。我们的壁垒是将存算一体芯片量产，过去四年我们趟过无数的坑，解决了一个又一个量产难题。”

世界人工智能大会2025（WAIC）前夕，后摩智能发布了即将在今年第四季度量产的端边大模型AI芯片——后摩漫界M50，这是一款单芯片就能运行百亿参数大模型的存算一体芯片。

吴强透露，后摩智能已启动下一代 DRAM-PIM 技术研发。

热闹的存算一体芯片赛道里，后摩的竞争壁垒是什么？｜WAIC 2025

率先起跑，一次转向，后摩智能建起壁垒

2020年吴强创业时，选择存算一体技术路线有两个核心原因，一个原因是吴强博士论文的方向是高能效比计算芯片以及编译器，吴强甚至要解决功耗墙和存储墙问题，必须走存算一体路线。另一个是看到英伟达的强大，决定用创新的架构另辟蹊径，尝试弯道超车。

存算一体技术在学术界研究很多，但要将学术研究转化成商业化落地的产品，中间还有巨大的鸿沟。

“论文里能看到理论和原理，但要把存算一体技术转化为量产产品，必须解决可测性和可靠性问题，中间有无数的坑。”吴强说，“没有人做过存算的DFT（Design for Testability，可测性设计），也不知道怎么做BIST（Built-in Self-Test，内建自测试技术），如何解决小面积大算力带来的电源稳定性问题？”

业界没有人遇到这些问题，也没有对应的制造工艺和EDA软件，后摩智能的团队就只能用普通的工艺和EDA软件填补中间巨大的鸿沟。

“我们非常希望友商一起做，把存算一体芯片的生态做好。”吴强说。

靠着后摩研发团队攻克一个个难题，2023年后摩发布了国内首款大算力存算一体智驾芯片鸿途H30，最高物理算力256TOPS，典型功耗35W。

此后虽有后摩智能融资的消息，但一直没有后摩智能产品和落地方面的消息，直到2025年7月的世界人工智能大会2025（WAIC）。

热闹的存算一体芯片赛道里，后摩的竞争壁垒是什么？｜WAIC 2025

谈及此事，吴强告诉，2023年下半年整个自动驾驶赛道竞争非常激烈，格局逐渐稳定，给新入局者的机会越来越少。

“我们第一代芯片为了体现存算一体的优势，算力很高，也意味着成本高。但当时市场都在讲低成本，我们的大算力芯片和汽车芯片市场的需求有鸿沟。”吴强坦言，“那时候在纠结要不要转型，放弃汽车市场到一个新领域很痛苦，但又知道自动驾驶芯片对我们来说是一条走不通的路。”

“最后生存的压力战胜了面子，2023年下半年开始转型。”吴强说，“我们看到了端边大模型的新兴市场，没有巨头公司，与存算一体芯片的适用场景又很契合，2024年初快速调整第一代芯片，针对大模型优化推出了漫界M30。”

在股东中国移动的帮助下，后摩智能的漫界M30随中国移动在2024年的世界移动通信大会（MWC）亮相，这款芯片能够运行60B参数的模型，给了吴强和团队信心。

于是后摩智能就坚定转到端边大模型芯片的市场，经过近两年时间，推出了第二代IPU架构的存算一体量产芯片漫界M50。

热闹的存算一体芯片赛道里，后摩的竞争壁垒是什么？｜WAIC 2025

无论是将存算一体芯片从学术界推向商业市场，还是芯片应用落地的选择，其中趟过的坑，走过的弯路积累下来的经验，都是后摩在存算一体赛道和国产芯片公司里的壁垒。

热闹的存算一体芯片赛道里，后摩的竞争壁垒是什么？｜WAIC 2025

这个壁垒，帮助后摩智能能够更好设计第二代芯片。

单芯片160TOPS，能运行百亿参数大模型

后摩漫界M50采用的是自研的第二代IPU 架构——天璇，实现了160TOPS@INT8、100TFLOPS@bFP16的物理算力，搭配最大48GB内存与153.6 GB/s的超高带宽，典型功耗仅10W，相当于手机快充的功率，就能让PC、智能语音设备、机器人等智能移动终端高效运行1.5B到70B参数的本地大模型。

热闹的存算一体芯片赛道里，后摩的竞争壁垒是什么？｜WAIC 2025

得益于存算一体通过把计算和存储单元集成在一起，让数据就近处理，能从根本上解决传统芯片“数据传输慢、功耗高”问题的特性，和传统架构相比，M50的能效提升5～10倍，能充分满足端边设备"算得快又吃得少"的需求。

但为了能够最大程度发挥存算一体架构的优势高效运行大模型，后摩智能进行了一系列的优化，吴强重点分享了两个优化。

一个是弹性加速，这个技术与GPU的稀疏加速有点类似。GPU的稀疏加速，是在遇到权重参数为“0”时，跳过计算，实现加速。但这种方式权重必须严格为“0”，在现实应用中，要让大量权重都恰好为“0”是非常困难的，因此GPU的稀疏加速效果往往不尽如人意。

SRAM存算一体技术是按照一个比特（bit）一个比特进行串行计算，这意味着后摩可以做到更细粒度的优化。

“我们并不需要整个权重是0，只要它在bit里面有0，就可能做弹性加速。”吴强介绍，这让加速的机会大大增加，也让量化变得更加灵活，可以实现7bit、6bit甚至5bit的超低精度量化，从而在不牺牲太多精度的情况下，将性能压榨到极致。

据悉，天璇架构最高可实现160%的加速效果。

热闹的存算一体芯片赛道里，后摩的竞争壁垒是什么？｜WAIC 2025

另一个优化是直接支持浮点运算。“基于存算的架构做浮点运算，并把它量产，我们在业内应该是第一个。”吴强解释，芯片直接支持浮点运算，意味着开源或者FP16的浮点模型可以直接运行，能够提升适配和应用的效率，只有特殊需要的情况下才会做额外的量化，这进一步降低了漫界M50芯片应用落地的难度。

热闹的存算一体芯片赛道里，后摩的竞争壁垒是什么？｜WAIC 2025

对于用户来说，易用性还是取决于上层的软件，包括编译器。

“第一代编译器用传统的方案做，很多功能发挥不出来，所以中间重构了一遍，完全从0-1。”吴强说，“我们也是逐渐地摸索，这种经验在外面看不到，这是我们积累的壁垒。”

传统的NPU编译器有几百个选项，手动调优困难，导致上手门槛高、使用不便。

后摩重构的编译器后摩大道，应用了自动的优化算子，只要给一些输入的图Graph，它就能自动搜索最优化的策略，无需开发者手动尝试，支持浮点运算，无需量化参数和精度调优，让开发者更容易上手。

热闹的存算一体芯片赛道里，后摩的竞争壁垒是什么？｜WAIC 2025

从硬件到软件，后摩解决了AI芯片落地的技术难题，市场策略成为后摩走向商业化成功的下一个关键。

多元产品组合，重点拓展三大领域

基于漫界M50内建的高速多芯互联技术，后摩智能推出了覆盖端侧到边缘的多元算力方案。

热闹的存算一体芯片赛道里，后摩的竞争壁垒是什么？｜WAIC 2025

力擎LQ50 M.2 卡以口香糖大小的标准 M.2 规格，为 AI PC、AI Stick、陪伴机器人等移动终端提供 "即插即用" 的端侧 AI 能力，支持 7B/8B 模型推理超 25tokens/s。

力擎LQ50 Duo M.2 卡集成双 M50 芯片，320TOPS 的算力，突破 14B/32B 大模型端侧部署瓶颈。

力谋LM5050 加速卡与力谋LM5070 加速卡分别集成 2 颗、4 颗 M50 芯片，为单机及超大模型推理提供高密度算力，最高达 640TOPS。

BX50 计算盒子则以紧凑机身适配边缘场景，支持 32 路视频分析与本地大模型运行。

目前后摩智能比较看重三个领域，一是平板和电脑这种消费终端类，这是大模型生产力工具，对AI性能有刚需。二是智能语音系统，大模型语音会议也是重点布局的一个方面。三是运营商的边缘计算，看中了5G+AI是一个趋势。

“目前这几个方面都有早期客户，消费终端、智能办公、智能工业我们重点布局的领域。”吴强说，“我们精力有限，先把这三个领域做好，未来只要对大模型有需要，对功耗敏感，都是会逐步拓展的客户。”

在世界人工智能大会（WAIC）后摩的展台上，后摩也展示了单颗漫界M50芯片运行端侧大模型的应用，比如基于Qwen3-14b模型的Chatbot知识问答；还有基于Qwen-8b模型的会议纪要，支持2K左右的上下文，一小时的会议，目前五六分钟可以生成会议纪要；还有专门为信创市场提供服务的公文写作，采用纯国产芯片和操作系统，运行Qwen2.5-7b模型，速度十分理想。

热闹的存算一体芯片赛道里，后摩的竞争壁垒是什么？｜WAIC 2025