算苗科技自主研发的A4E芯片,正式宣布流片成功。
2025年6月17日,算苗科技——一家专注于3D架构AI云端大算力芯片研发的企业——正式对外宣布,其首款产品A4E芯片已于6月15日完成流片。该消息在业内引发广泛关注,因为在大模型算力芯片领域,又出现了一位独具创新路线的参与者。
A4E芯片从底层架构到制造工艺,都彰显出“全栈自研”的特色。它采用算苗科技自主研发的RISC-V架构、自研IP以及自研软件体系,并搭载成熟可靠的国产工艺。不同于盲目追逐先进制程的策略,该芯片另辟蹊径,明确聚焦于为大模型推理场景提供自主可控、高性能且高性价比的专用算力解决方案。
算苗科技对外提出的核心概念是“3D TokenPU”。据官方介绍,这一定制架构为大模型时代原生设计,彻底跳脱了通用GPU的思维框架,将所有资源集中于推理场景的极致性能优化。
实现这一目标的关键在于“3D堆叠”技术。第一代产品A4E将8层存储晶圆垂直堆叠于计算逻辑晶圆之上,借助硅通孔(TSV)和凸点(bump)技术实现微米级别的互联。传统芯片间的数据传输距离通常以毫米计,而A4E将其压缩了两个数量级,从而带来高达16TB/s的访存带宽——这无疑为大模型推理中常见的“数据饥饿”问题提供了强力解决方案。
在架构设计层面,算苗科技引入了名为“Tile-Native”的创新理念。这一概念的核心逻辑十分简洁:将数据搬运、存储与计算的基本单元统一为“Tile”,实现“一次搬运、多次复用”的高效数据流。硬件层面原生支持Tile级数据调度与多精度动态切换,软件端则兼容LLVM、Triton等开源编译工具链。通过“硬件架构—软件工具—算法特性”的闭环优化,最终目的是加速大模型推理性能,并显著降低总拥有成本(TCO)。
“我们并非在他人赛道上追赶,而是在开辟全新方向。”算苗科技创始人兼CEO、中科院声学所国家重点实验室博士汪福全的这番话,充分体现了公司的自信。“3D TokenPU专为大模型Token处理量身打造,无需单纯依赖制程微缩,即可实现算力密度与能效比的跨越式提升。”
当然,仅有概念远远不够,工程化量产才是检验实力的硬标准。算苗科技核心团队成员此前在高通量存算一体芯片项目中,曾成功完成两代产品、万片级3D混合堆叠晶圆的量产。这一履历为当前“3D堆叠”技术路线的量产可行性提供了有力背书。
不过,汪福全也坦言,算苗科技采用的Wafer to Wafer 3D堆叠芯片技术路线,良率控制是核心挑战之一。但得益于此前万片级晶圆量产积累的工艺诀窍(know-how),团队目前已能对良率控制做到“心中有数”。
