首页 游戏 软件 资讯 排行榜 专题
首页
AI
ASPLOS'26丨晶圆级芯片和存算一体结合:中科院提出15万tokens/s晶圆级芯片方案

ASPLOS'26丨晶圆级芯片和存算一体结合:中科院提出15万tokens/s晶圆级芯片方案

热心网友
48
转载
2026-04-21

Ouroboros:大模型推理的革命性突破,晶圆级存算一体架构深度解析

当前,大模型的发展已进入白热化阶段,参数规模从千亿向万亿级别跃进,对底层计算硬件的算力与能效提出了前所未有的挑战。在这场技术竞赛中,一个关键瓶颈日益凸显:数据搬运开销

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

在传统的冯·诺依曼架构中,大模型推理过程需要在DRAM、SRAM与计算单元之间频繁搬运数据。这种“数据长途跋涉”不仅导致高延迟,更消耗了系统绝大部分能量。研究表明,数据搬运所耗费的时间和能耗远超实际计算,成为制约大模型推理效率能效比提升的核心障碍。

如何从根本上破解这一难题?技术界聚焦于两条颠覆性路径:存算一体架构晶圆级集成技术

存算一体技术旨在将存储与计算功能深度融合于同一芯片内,实现数据原地处理,彻底消除搬运。而晶圆级集成则更进一步,在整片硅晶圆上构建超大规模系统,通过超高带宽互连形成统一的内存-计算资源池,为下一代AI计算提供全新范式。

图片

近期,中国科学院计算技术研究所研究团队在这一前沿领域取得重大进展。其创新成果——Ouroboros晶圆级存算一体芯片,发表于计算机体系结构顶级会议ASPLOS 2024。该研究首次实现了完全基于SRAM存算单元的晶圆级AI芯片,为大模型推理带来革命性解决方案。

Ouroboros的核心设计理念可概括为:数据原地存储,计算就近执行。该芯片将大模型推理所需的全部数据——包括权重参数、KV缓存及中间激活值——完整存储在片上SRAM中,无需访问外部DRAM。所有计算操作均在数据存储位置原位完成,真正实现了“零数据搬运”的存算一体范式,极大提升了大模型推理速度能效

图片

三层精密架构:从晶圆到核心的协同设计

为实现上述目标,Ouroboros采用了创新的三层层次化架构:

1. 晶圆级集成层

顶层为集成高达54GB SRAM的单片晶圆,足以完整容纳大模型的权重、激活值与KV Cache,从根本上消除DRAM访问瓶颈。该晶圆由多个芯粒通过先进stitching技术无缝拼接而成,形成一个可统一调度、协同工作的巨型计算平面

2. 芯片级组织层

每个芯粒内部由上百个存算核心构成网格网络,核心间通过高带宽链路紧密互联。设计团队将芯粒面积推向光刻极限,以最大化SRAM容量。同时,引入了核心级容错机制,确保大规模芯片的可靠性与鲁棒性。

3. 存算核心微架构层

每个核心内部集成输入/输出缓存、存算阵列、专用函数单元及控制单元。缓存容量经过精心优化,可容纳典型大模型的token数据,极大减少核心间通信。存算阵列通过高效片上网络互联,专用函数单元并行处理softmax等操作,控制单元则负责核心间与核心内的流水线同步调度。

关键挑战:理想架构的现实制约

尽管Ouroboros构建了强大的晶圆级计算平台,但在实际部署大模型时仍面临多重挑战:

第一,SRAM容量限制

尽管集成海量SRAM,但其物理密度仍有限制。面对持续增长的大模型参数规模,如何用有限片上空间存储庞大权重与状态,是亟待解决的核心问题。

第二,巨型阵列调度复杂性

当成千上万个计算单元铺满晶圆,如何高效地将复杂大模型计算图拆解并映射到分布式阵列上,成为复杂的系统工程。涉及存储布局、数据流调度、任务分配等,需要全新的软硬件协同设计思路。

第三,存算协同优化难题

在存算一体架构中,计算与存储深度绑定。存储布局直接制约计算效率,必须对两者进行协同优化,才能最大化系统整体性能,这显著增加了设计复杂度。

图片

软硬协同:解锁晶圆级潜力的核心策略

为充分发挥晶圆级架构潜力,研究团队开发了端到端的大模型推理框架。该框架从模型流水线切分开始,进行精细化调整,旨在最大化存算资源利用率。

团队创新设计了权重映射策略,结合硬件资源分配与分层映射方法,最小化不必要的数据传输。针对大模型推理关键的KV Cache,框架设计了分布式动态KV缓存管理方案及配套硬件支持,将片上缓存空间利用率提升至新高度。

图片

图片

性能实测:数据见证飞跃

通过芯片与系统的协同设计,Ouroboros成功实现了“计算原地化”,并在性能与能效上取得突破性成果:

与当前顶尖系统相比,Ouroboros的平均吞吐量提升4.1倍,平均能效提升4.2倍

在13B参数模型上表现尤为突出:吞吐量最高提升9.1倍,能效比提升达17倍

具体而言,单晶圆推理Llama 13B模型、在WikiText‑2数据集测试中,系统吞吐量稳定达到15万tokens/秒。这一结果充分验证了Ouroboros在真实大模型推理场景下的卓越性能。

上述成果不仅证明了其在性能与能效上的双重优势,更为“存算一体”与“晶圆级集成”技术路线的可行性提供了坚实证据。这项研究标志着,在构建下一代高效、低功耗大模型推理系统的道路上,我们迈出了关键一步。

论文链接:https://dl.acm.org/doi/10.1145/3779212.3790197

作者介绍:本文作者来自中国科学院计算技术研究所智能计算机研究中心和泛在计算系统研究中心物端计算系统实验室,团队长期致力于芯粒集成芯片研究。本文的共同第一作者是刘艺圻和潘煜东,均为计算技术研究所在读博士生。指导老师为中科院计算所王颖研究员、韩银和研究员、王梦迪特别研究助理。

来源:https://www.51cto.com/article/841210.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

经典重演:何小鹏化身偷“芯”特工,打造全球首款 L3 级算力汽车“小鹏 G7”
业界动态
经典重演:何小鹏化身偷“芯”特工,打造全球首款 L3 级算力汽车“小鹏 G7”

经典重演:何小鹏化身偷“芯”特工,打造全球首款 L3 级算力汽车“小鹏 G7” 7月2日,小鹏汽车放出了一段名为“Mission:Turing-图灵计划情报泄露”的视频。这可不只是一段简单的总部展示,更像是一部精心编排的“科技特工片”。视频里,一位神秘特工上演了攀楼潜入未来总部的戏码,目标直指实验室

热心网友
04.22
单季营收681亿美元,净利429亿!英伟达财报再次炸裂,黄仁勋
业界动态
单季营收681亿美元,净利429亿!英伟达财报再次炸裂,黄仁勋"画饼"智能体

编辑 | 王凤枝 单季营收681 3亿美元,净利润429 6亿美元,数据中心业务狂飙75%,推理成本更是迎来量级式下降。 过去几个月,关于“AI泡沫”的争论在资本市场从未停歇。然而,英伟达刚刚交出的这份第四财季成绩单,用最硬核的数据,给整个产业情绪注入了一剂强心针。 面对这台全速运转的“印钞机”,C

热心网友
04.22
拿下Meta超级大单+10%股权绑定,AMD稳坐算力
业界动态
拿下Meta超级大单+10%股权绑定,AMD稳坐算力"第二选择"

Meta豪掷数百亿,AMD的“备胎”终于要上位了? AI算力军备竞赛的战火,烧出了新剧情。就在周二,Meta与AMD联手扔下了一枚重磅冲击波:双方达成一项多年期协议,Meta将在其AI数据中心部署规模高达6吉瓦(GW)的AMD GPU,并配套使用AI优化型CPU。首批搭载MI450 GPU的AMD

热心网友
04.22
MacBookNeo热销致A18Pro库存告急?
科技数码
MacBookNeo热销致A18Pro库存告急?

MacBook Neo平价版爆火背后:一场甜蜜的供应链烦恼与苹果的生态棋局 上个月初,苹果悄然投下了一枚“平价冲击波”——起售价4599元、教育优惠价仅3999元的MacBook Neo笔记本正式登场。对于早已拥有iPhone或iPad的用户而言,这无疑是完善苹果生态拼图的绝佳选择;而对于初次接触苹

热心网友
04.22
NVIDIA GTC2026大会上黄仁勋又要扔“核弹”,采用A16工艺的“神秘芯片”或将发布
业界动态
NVIDIA GTC2026大会上黄仁勋又要扔“核弹”,采用A16工艺的“神秘芯片”或将发布

英伟达GTC前瞻:代号“Feynman”的下一代芯片,将如何定义未来算力? 距离NVIDIA GTC 2026大会(3月16日至19日)开幕越来越近,黄仁勋已经提前放出风声,预告将发布一款“让世界震惊的芯片”。市场的目光,正被牢牢锁定在这场即将到来的技术盛宴上。 根据韩国媒体Chosun Biz的报

热心网友
04.22

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

mysql数据库主从延迟严重如何监控与解决_分析从库同步线程状态
数据库
mysql数据库主从延迟严重如何监控与解决_分析从库同步线程状态

MySQL主从延迟:别被“0延迟”骗了,这才是真实监控与排查指南 说起MySQL主从延迟,很多人的第一反应就是去查SHOW SLA VE STATUS里的那个Seconds_Behind_Master。但经验告诉我们,这个最显眼的数字,往往也是最会“撒谎”的。它明明显示为0,业务侧却反馈数据没同步过

热心网友
04.23
mysql如何利用锁函数实现应用级锁定_mysql get_lock函数实践
数据库
mysql如何利用锁函数实现应用级锁定_mysql get_lock函数实践

MySQL GET_LOCK():一个被误解的“分布式锁”工具 MySQL GET_LOCK() 能不能当分布式锁用 开门见山地说,直接把它当作生产级的分布式锁来用,风险极高。这个函数的设计初衷,其实是为了在单个MySQL实例内部,进行一些轻量级的协作控制。为什么这么说?原因很具体:首先,GET_L

热心网友
04.23
mysql如何查看当前执行的进程_使用show processlist查看状态
数据库
mysql如何查看当前执行的进程_使用show processlist查看状态

mysql如何查看当前执行的进程_使用show processlist查看状态 show processlist 返回的 State 字段到底代表什么 首先得澄清一个普遍的误解:State 字段显示的可不是什么“进程状态”,它真正揭示的,是当前线程在执行 SQL 时,其内部正处于哪个**具体的工作阶

热心网友
04.23
屎币与狗狗币的游戏规则,从迷因到市场的生存逻辑
web3.0
屎币与狗狗币的游戏规则,从迷因到市场的生存逻辑

在加密货币那个充满野性与想象力的世界里,“屎币”(Shiba Inu)和狗狗币(Dogecoin)绝对是两个无法被忽视的“异类”。它们从网络迷因中诞生,因社区狂欢而崛起,最终在残酷的市场博弈中,演化出了一套属于自己的独特生存法则。这套法则既包含了加密货币的底层逻辑,又被“去中心化”、“社区驱动”这些

热心网友
04.23
mysql如何限制特定IP的访问权限_配置GRANT与防火墙策略
数据库
mysql如何限制特定IP的访问权限_配置GRANT与防火墙策略

MySQL访问控制:GRANT与防火墙的协同策略 MySQL GRANT 语句中指定 IP 时,为什么 localhost 和 127 0 0 1 不等价? 这里有个关键细节常被忽略:MySQL的用户账户其实是一个二元组,由 user @ host 共同构成。其中, localhost 是一个特殊标

热心网友
04.23