存算一体写入十五五规划 通用化与软件生态难题如何破解

AI技术的飞速发展,正对传统计算架构构成前所未有的挑战。如何突破算力瓶颈,成为行业亟待解决的核心问题。
国家数据局最新数据显示,截至2026年3月,我国日均AI token调用量已突破140万亿大关。这一数字背后是惊人的增长:相比2025年底的100万亿,仅三个月就激增超40%;若回看2024年初的1000亿,两年累计增幅更是超过1000倍,呈现出指数级增长态势。
数据洪流的背后,是AI智能体、多模态大模型、长文本推理等应用场景的全面爆发。市场对高并发、低功耗、大吞吐量推理算力的需求变得空前刚性。传统算力卡受限于“存储墙”与带宽瓶颈,已难以匹配token处理需求的爆炸式增长,算力供需错配矛盾日益突出。在此背景下,存算一体技术被视为破解AI算力困境的关键路径。
近年来,“存算一体”频繁现身于各类产业政策文件。进入“十五五”规划开局之年,其战略地位被提升至新高度——在规划纲要中,存算一体与三维堆叠、光电融合一同被列为下一代集成电路的前沿架构方向。
与此同时,中国存算一体产业正迎来关键转折:从技术概念导入迈向工程化与产品落地。一方面,围绕新架构的创业公司不断涌现;另一方面,部分领先团队已成功跨越原型验证阶段,进入产品化进程。
在这条前沿赛道上,亿铸科技自2024年运营以来便是国内较早的布局者。近期,我们与亿铸科技创始人、董事长兼CEO熊大鹏博士展开深度对话,围绕存算一体的技术演进、落地挑战与产业机遇进行探讨,为这一前沿方向提供了具体的进展观察。

一、从“冯・诺依曼瓶颈”到存算一体:技术本质与落地挑战
要理解存算一体的价值,需先厘清传统计算架构为何在AI时代遭遇瓶颈。
冯·诺依曼架构是现代计算机的基石,其核心是“存储程序”思想,即程序指令与数据存储于独立的存储单元,计算单元需频繁存取数据以执行任务。
问题正源于此。进入AI时代,模型参数规模呈指数级膨胀,数据访存需求急剧增加。算力增长却遭遇两大壁垒:“存储墙”与“能耗墙”。
具体而言,当前算力提升受限于数据搬运效率与能耗约束:数据在存储与计算单元间频繁迁移,搬运开销持续攀升,带宽与延迟瓶颈导致算力无法充分释放。更关键的是,数据搬运本身消耗的能量已远超实际计算所需。大量能量被浪费在“运输途中”,而非有效的“生产工作”。根据图灵奖得主约翰·轩尼诗(John L. Hennessy)的研究,AI计算中数据搬运成本可达计算成本的100倍。
存算一体(Computing in Memory)正是针对这一痛点提出的架构革新。其本质是将计算电路嵌入存储阵列或其近邻,极大减少数据搬运距离与次数,最终实现计算与存储的高效协同,达成更低能耗、更短延时与更高能效。
以亿铸的存算一体产品为例,其依托架构原生的计算能力,显著提升了带宽利用效率与并发处理能力,有效满足单卡大吞吐、高并发的实际需求。在长上下文、高并发推理场景中,该产品在能效与吞吐指标上均实现突破。
尽管架构优势明确,但存算一体AI大芯片的工程落地仍面临多重现实挑战。
首先是算法快速迭代。AI技术范式仍处于快速演变期,平均每2-3年便发生一次更迭,这对底层硬件的通用性与适应性提出极高要求。
其次是软件生态壁垒。当前AI开发高度依赖成熟软件体系,尤其是以CUDA为代表的编程生态。新一代存算一体AI芯片必须具备良好的通用性设计,并兼容主流软件生态。这意味着从指令集、架构、微架构、核心IP,到编译器、算子优化工具,全技术栈都需相应的设计能力与储备。新架构若无法融入主流工具链,将直接面临开发者接纳度低的困境。
再次是工程实现难度。不同存储介质在密度、功耗、读写性能等方面存在复杂权衡,介质选择最终取决于AI应用的具体落地场景。
最后是异构融合难题。存算一体本质上是为矩阵计算优化的专用计算单元。它需与CPU、逻辑计算等其他单元构成完整计算系统,并需消除异构融合中的任务分工与切换“气泡”,方能实现整体性能最优。
熊大鹏博士强调,存算一体AI芯片并非简单耦合存储介质与逻辑计算,而是从ISA指令集、架构、微架构、核心IP到软件栈的全链条体系化创新。如何实现不同计算精度、与其他计算单元高效协同、快速融入既有软件生态、完成传统AI计算芯片的任务,并实现全栈技术自主可控,这些是比“用存算一体实现矩阵计算”本身更具挑战的技术高峰。
二、通用化路径:从架构创新到生态兼容
目前,从计算方式看,存算一体主要分为模拟存算一体和数字存算一体两大技术路径。
模拟存算一体利用存储介质的物理特性在模拟域完成乘加运算,但在器件一致性、计算精度、可信度、数据动态范围及浮点计算等方面存在局限。数字存算一体则围绕存储单元集成逻辑电路实现乘加运算,能保持高精度、高可靠性、高能效比与大算力优势,更易与通用计算融合,可支撑高精度通用计算与大模型推理,是当前主流方向之一。
从存储介质看,SRAM、NOR Flash、RRAM、3D DRAM、PCRAM等存储器各具特点。熊大鹏博士总结了多达14个存储介质的差异维度,包括密度、读写速度、耐久性、功耗、成本、良率、一致性、工艺兼容性、产能现状等。
面对庞杂的技术选项,亿铸并未急于绑定单一路径,而是选择了“通用存算一体”方向。熊大鹏博士阐释了通用存算一体的三个维度:
第一是存储层面的通用性,即能否兼容不同存储介质;
第二是算力层面的通用性,即能否支持各类算法与模型;
第三是软件生态的通用性,即能否兼容主流生态并被开发者便捷使用。
这三个通用性,精准回应了存算一体在存储介质选择、算法快速迭代和软件生态壁垒三大核心难题。
需明确的是,存算一体架构当前的核心价值体现在两方面:一是贡献更低功耗,二是贡献更大容量与吞吐。两者很难在同一介质上同时达到最优。因此,不同场景的需求与取舍优先级,决定了不同存储介质存算一体芯片的设计选择。
亿铸在实践中已尝试将两种新型存储介质应用于存算一体方案。该架构优势在探索中显现:企业可根据目标市场对容量、功耗、成本、性能的不同要求,灵活选择最合适的存储介质。在新型存储介质并行发展、行业标准尚未统一的当下,这无疑成为应对未来不确定性的“架构保险”。
在软件层面,兼容现有生态被亿铸视为关键策略。熊大鹏博士透露,其团队通过指令集层面对Triton和CUDA等主流生态进行兼容。但他强调,兼容只是第一步:“能运行不代表运行得好,算子效率仍需持续优化。”通过编译器和自动优化工具实现算子的自动生成与优化,从而大幅减少软件工作量、加速应用部署,这才是通用存算一体架构的一大优势。
“软件生态不是口号,而是工程师用脚投票的结果。”熊大鹏博士认为,“只有被广泛使用的软件生态,才真正具备商业价值。”
三、产业重心转移,政策信号明确
回顾亿铸发展路径可见,其通用存算一体技术方向并非一蹴而就,而是在市场尝试与技术迭代中逐渐成型。
熊大鹏博士回忆,他曾在2017年至2019年间专注于某创新架构研发,但在落地中遭遇软件生态与通用性的巨大阻碍。“我们当时的创业认知是,只要硬件性能更强就能胜出。但后来发现,软件生态的兼容性与通用性同样关键。”这一经验成为亿铸在存算一体赛道坚持硬件架构创新同时,必须兼顾生态兼容与通用性的重要原因。
在存储架构通用性方面,亿铸也经历了认知演变。2023年前,产业对服务器级AI算力卡的主流需求,是基于75W功耗实现优于T4的AI推理性能。然而,自2024年起,行业重心明显向大模型与高存储容量倾斜。熊大鹏博士观察到:“大模型流行后,核心问题变为大容量、大带宽和token高吞吐率,同时功耗需维持在合理范围。”
大容量、大带宽、低成本的3D DRAM,在此阶段体现出独特价值。事实上,早在2024年,亿铸便关注到3D DRAM潜力,并进行了持续技术探索与储备。这些前置工作,让亿铸能在算法迭代中快速调整方案,满足大模型时代对“大容量、大吞吐、低功耗、高性价比”AI大算力芯片的要求。
在中国半导体产业寻求自主突破与差异化路径的大背景下,这种务实的演进路径尤为可贵。全球算力竞争格局中,传统路径高度依赖先进制程与高带宽存储(HBM)。在外部环境不确定性加大的背景下,探索新架构路径被视为提升国内半导体产业自主能力的重要方向。
熊大鹏博士认为,存算一体的核心价值在于从架构层面实现突破:“它可用成熟工艺达到甚至超越先进工艺的性能,缓解对先进工艺和HBM等高带宽存储的依赖,为算力供给提供了新解法。”
从这个视角看,十五五规划对存算一体的高度关注顺理成章。熊大鹏博士表示,被列入国家规划,代表国家层面已完成技术原理论证与产业价值论证,政策信号已非常明确。
结语:存算一体迈向产业化关键阶段
从政策支持到企业探索,存算一体正逐步走出概念验证的实验室,迈向产业化落地的深水区。在此过程中,通用计算能力、软件生态兼容以及可行的工程实现路径,将成为决定胜负的关键因素。
对于AI产业发展阶段,熊大鹏博士给出一个形象类比:现在的AI就像3G时代的移动互联网,雏形已现、令人兴奋,但还存在费用高、速度慢、尚未成为人们生活工作中不可或缺部分等问题。真正的产业爆发,还需持续提升性能、降低成本。
他将未来理想的AI算力定义为“3+1”特征,即更低功耗、更高吞吐、更低成本,以及良好的软件生态。目前,国际主流厂商至多能做到“1+1”,例如软件生态做得好,但无法在功耗、吞吐、成本三者间取得完美平衡。而亿铸团队正致力于用“通用存算一体”技术,实现真正的“3+1”闭环。
熊大鹏博士也指出,随着智能化时代深入发展,算法演进带来了更加多元化的算力需求。存算一体并非万用良方,它有很强的适用性,且与存储介质本身的物理特性和工艺现状息息相关。但它一定会和更早出现的CPU、GPU、TPU、NPU一样,在与其特点高度匹配的场景里,发挥出不可或缺的关键作用。
相关攻略
AI技术的飞速发展,正对传统计算架构构成前所未有的挑战。如何突破算力瓶颈,成为行业亟待解决的核心问题。 国家数据局最新数据显示,截至2026年3月,我国日均AI token调用量已突破140万亿大关。这一数字背后是惊人的增长:相比2025年底的100万亿,仅三个月就激增超40%;若回看2024年初的
国家知识产权局信息显示,苏州誉宸数字科技有限公司申请一项名为“一种支持多模态交互的AR数字内容生成系统及方法”的专利,公开号CN121704693A,申请日期为2025年12月。专利摘要显示,本发明
这项由西安交通大学田启伟、林晨浩、赵正宇和沈超领导的研究团队发表于2024年12月的最新研究论文,探索了如何让人工智能视觉语言模型在面对恶意攻击时变得更加坚韧。这项研究的论文编号为arXiv:251
机器之心发布具身智能通往通用性的征途,正被 “数据荒漠” 所阻隔。当模型在模拟器中刷出高分,却在现实复杂场景中频频 “炸机” 时,行业开始反思:我们喂给机器人的数据,是否真的包含人类操作的精髓?近日
IT之家 11 月 30 日消息,据台湾地区《经济日报》报道,近日,英伟达 CEO 黄仁勋在台湾地区接受媒体采访时,就当前市场竞争、AI 芯片发展趋势以及供应链状况等热点问题发表看法。黄仁勋指出,英
热门专题
热门推荐
知名制作人阿迪·尚卡尔透露,在卡普空发布新作后,他收到大量粉丝请求,希望将科幻游戏《识质存在》动画化。他认为该游戏因“不寻常且原创性十足”而备受关注。但目前他并无改编计划,而是选择专注于全新的原创项目,以探索更多叙事可能性。
《班迪与油印机》是一款融合平台跳跃与解谜的冒险游戏。攻略从基础操作讲起,详细介绍了前八关的核心玩法与技巧,包括利用特殊动作通过地形、应对各类机关与Boss战策略。游戏过程中可收集资源以升级能力,探索隐藏区域。其关卡设计富有创意,难度较高,但攻克后能获得显著成就感。
在《异环》游戏中,获取那台备受瞩目的AE86幽灵车外观,关键在于完成白杨的支线赛车挑战。许多玩家在此环节遇到困难,感觉对手速度难以超越。实际上,掌握正确技巧后,赢得比赛并不复杂。 异环白杨赛车任务通关技巧详解 获胜的核心策略可以总结为:把握弯道优势,主动实施碰撞。 白杨的车辆起步与直线加速性能确实出
心魔15层需冰抗180、火抗220以应对高额元素伤害,并把握BOSS施法前摇。16层需优先集火“魅惑魔灵”以防混乱,并稳妥处理高伤“穿刺者”。17层需兼顾元素区域走位与快速击破回血核心,考验团队输出与生存综合能力。这三层逐级挑战生存、节奏与整体实力。





