首页 游戏 软件 资讯 排行榜 专题
首页
AI
上交大与和辉联合研发LLM:推理性能突破2万token/s,GPU时代终结?

上交大与和辉联合研发LLM:推理性能突破2万token/s,GPU时代终结?

热心网友
40
转载
2026-03-03


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新智元报道

编辑:犀牛

【新智元导读】当硅谷Taalas将大模型「物理焊死」进芯片引爆全球半导体圈,来自上海交大、辉羲智能与微软亚洲研究院的研究团队早已走得更远——他们用ROM+SRAM异构架构,将端侧LLM推理速度推至20,000 tokens/s,端侧算力直接起飞。

近期,硅谷初创公司 Taalas 提出的「模型即芯片(Model-on-Chip)」方案引发了全球半导体业界对「硬核 AI」的深度反思。

他们绕开了所有热门概念,直接把AI大模型,物理焊死在硅片里!

芯片运行Llama 3.1 8B的速度达到了17,000tokens/秒。

足足比业界最顶端的英伟达GPU提升了将近10倍!


英伟达这边也没闲着,GTC 2026前夕,英伟达释放明确信号:即将发布的Feynman架构将与Groq LPU技术实现深度融合。

LPU架构通过预编排的固定指令流驱动模型,摒弃传统HBM主存,转而采用片上SRAM存储权重,大幅突破了原有的访问速度与带宽瓶颈。

这些都预示着,在Scaling Law驱动的大模型时代,传统的通用指令集正成为锁死算力的枷锁。

如何从物理层面彻底击碎困扰大语言模型(LLM)部署的「内存墙」,已成为定义生成式 AI 下半场的关键。


现有端侧存储方案不能同时满足LLM推理的存储容量和访存带宽需求

事实上,针对 LLM 的访存特性,来自上海交大、辉羲智能及微软亚洲研究院的研究团队早已展开了一场存储层次结构的创新研究。

通过ROMA与TOM系列研究,团队展现了与 Taalas 不谋而合的架构洞察:通过对只读存储(ROM)的颠覆性应用与「算法-架构」深度协同,成功将LLM 的端侧推理速度推向 20,000 tokens/s的水平,这一突破性成果在具身智能等前沿领域展现了巨大的应用潜力。


ROMA:打破传统存储层次

重塑端侧能效

在大模型端侧部署的实战中,传统的内存层次结构正面临前所未有的挑战。

研究团队提出的 ROMA(Read-Only-Memory-based Accelerator) 架构,针对端侧场景的特殊需求,给出了一套系统的解法。


ROMA的计算架构,采用ROM+SRAM的方案

1.引入只读存储(ROM):从源头解决访存能效

研究团队发现,大模型推理的能效瓶颈主要源于权重数据在外部内存(如 LPDDR)与计算单元之间的频繁搬运。

ROMA 另辟蹊径,利用高集成密度、低功耗的只读存储(ROM)作为权重的存储载体,将模型参数从源头上固化在芯片内部,大幅度降低了访存功耗。

2.QLoRA 赋能灵活性:在「固化」中寻找演进空间

完全硬连线的芯片往往难以应对算法的快速迭代。ROMA 巧妙地引入了 QLoRA 机制,通过ROM(基座模型)+ SRAM(LoRA 适配器)的混合设计,确保了芯片在拥有「硬核」性能的同时,依然保留了强大的应用灵活性。

开发者只需下发极小规模的 LoRA 插件,即可让固化的基座模型在不同垂直任务间快速切换。

3.架构与物理设计协同:极致的物理实现

为了实现真正的片上全模型存储,团队进行了深度的 架构与物理设计协同优化。

通过独创的 B-ROM 设计,将计算单元与存储阵列进行紧耦合的物理布局,极大地缩短了信号传输路径。

这种协同设计让 ROMA 在有限的芯片面积内,实现了对数亿参数模型的高效容纳与实时调度。

最终,ROMA的规格和指标与Taalas非常接近:ROMA采用7nm工艺库,芯片面积约 500 mm²,可以完整容纳4bit LLaMA3.2-3B 或者 2bit LLaMA3-8B,推理性能达到20,000 tokens/s,而同样采用ROM+SRAM的方案的Taalas是6nm工艺,面积约800mm²,可容下3-6bit llama3.1-8B,性能接近20,000 tokens/s。

TOM:深度挖掘三值化大模型

带来的存储红利

在 ROMA 的基础上,最新的TOM(Ternary-Oriented Memory)架构进一步将优化的触角延伸到了算法底层的存储特征中,把ROMA扩展到BitNet/Ternary量化这个场景,利用低比特权重的0值稀疏性,继续提升了ROM的存储密度。


低比特模型0值分布特征,带来ROM存储密度提升潜力

1.捕捉 BitNet 的硬件友好性:开启「以逻辑代存储」范式

研究团队发现,以 BitNet-b1.58 为代表的三值化({-1, 0, 1})模型展现出了极佳的硬件友好性 。

基于这一发现,TOM 摒弃了传统的存储阵列,通过逻辑合成技术直接利用标准逻辑门实现模型权重的固化存储 。

在这种新范式下,硬件能够直接识别并物理消除权重中「0」元素的存储电路 。这一极致收益的实现,得益于三值模型中零值参数本就占据绝大多数的天然稀疏特性,加上定制的编码方法(使用「10」而非「11」来表示 -1),从而大幅拉高了 0-bit 的整体占比,从根本上降低了物理开销 。

2.存储逻辑的深度合并与复用:极限压缩芯片面积

为了进一步推高面积效率,TOM 引入了精细的逻辑优化策略:通过识别并提取不同权重存储逻辑中的公共子序列,对重复的逻辑门进行深度合并与复用。

这种从物理层对存储逻辑进行的「极限去重」,使得 TOM 相比 ROMA 实现了片上存储密度的数倍提升与芯片面积的大幅削减。

这也再次印证了算法-硬件联合设计在突破 AI 算力边界时的核心重要性。

具身智能与极端场景

ROM 架构的「降维打击」

「模型即芯片」方案的兴起,精准捕捉到了当前端侧应用的两大痛点:

1.具身智能的「实时确定性」

在机器人、无人设备等具身智能场景中,毫秒级的响应延迟往往决定了系统的物理安全性。

ROMA 提供的 20,000+ tokens/s 吞吐量,是为了提供一种高确定性的实时反馈。

这让机器人能够像拥有脊髓反射一样,在感知到复杂的物理环境变化时,瞬时做出语义理解与避障决策。

2.极端环境下的生存优势:深海与火星

在深海探测器、火星漫游车等极端场景下,DRAM 等易失性存储器不仅能耗高,且容易受到高能射线干扰产生软错误。

ROM 架构具有天然的稳定性和抗辐射性。

在能源匮乏、通信隔绝的极端环境下,搭载 ROMA/TOM 架构的设备依然能独立、稳定地完成复杂的智能任务,且待机功耗极低。

这使得大模型能够真正走出实验室,进入人类探索的「无人区」。

3.智能终端的隐私「防火墙」

对于手机端本地文本处理等场景,用户对模型基座的频繁更新需求并不高,但对隐私极其敏感。

将成熟、稳定的模型能力固化在本地隔离电路中,不仅免去了频繁联网的能耗,更在物理层面上杜绝了数据外泄的风险。

结语

开启端侧内存层次结构的新纪元

从 Taalas 的破圈到研究团队ROMA与TOM系列工作的深度探索,我们正见证 AI 硬件架构的一个重要转向。

这种引入ROM+SRAM异构存储层次结构的创新,结合对三值逻辑存储特性的极致挖掘,为端侧大模型部署提供了一条全新的进路。

ROMA与TOM系列研究的诞生,植根于“模型即芯片”的设计思维。

团队的这种强调算法与硬件深度耦合的思维来源,最早可追溯至微软亚洲研究院(MSRA)时期。

核心作者中,王文强与曹士杰曾先后作为MSRA实习生在徐宁仪老师指导下开展研究,积淀了深厚的工业界系统经验;张毅佳在上海交大攻读博士期间师从徐老师,并先后在 MSRA 系统组与辉羲智能实习。

研究团队长期从事算法-芯片联合设计的研究,在AI芯片架构设计、大模型轻量化等方面有丰富经验。

这种由资深架构师、企业研究员与学术新生代构成的多重纽带,让团队得以将前沿的实战思维与学术界的理论创新高效结合,在大模型范式下实现了从通用计算向 LLM 原生架构的协同突破。

团队介绍

关于上交大团队:团队来自上海交通大学计算机学院定制计算中心(Customized Computing Center - CCC,ccc.sjtu.edu.cn),CCC聚焦于解决数据中心、边缘设备和传感器的所面临的各种计算挑战。

关于辉羲智能:辉羲智能致力于成为全球领先的具身智能AI计算平台供应商,以卓越算力促进人工智能发展。成立三年,公司已实现大算力端侧旗舰芯片R1的成功流片与量产交付,率先在具身智能领域走通“芯片-平台-产品”的全栈自主国产化路径。

参考资料:

ROMA:https://arxiv.org/pdf/2503.12988

TOM:https://arxiv.org/abs/2602.20662

来源:https://www.163.com/dy/article/KN1H96350511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

BCBC币(BCBC)实时行情?
web3.0
BCBC币(BCBC)实时行情?

BCBC币(BCBC)深度解析:技术底色与市场前景 在百花齐放的数字货币领域,总有项目希望以独特的技术路径站稳脚跟。BCBC币(BCBC)正是其中之一,它依托一套组合技术方案来构建其安全与稳定的基石,目标直指高效、低成本的支付新体验,同时也不失为投资者眼中一个潜在的增值选项。 技术架构:不止于共识的

热心网友
04.02
BNB连锁店在最新焚化活动中燃烧了价值9.16亿美元的代币
web3.0
BNB连锁店在最新焚化活动中燃烧了价值9.16亿美元的代币

BNB Chain完成第31次季度销毁,近10亿美元BNB永久退出流通 近日,全球顶尖的区块链基础设施BNB Chain正式完成了其第31次季度代币销毁。根据官方公布的数据,本次共计销毁了1,579,207 716枚BNB,按销毁时市场价值计算,总额高达约9 16亿美元。此次大规模销毁再次向市场展现

热心网友
04.02
openclaw 常见命令解析
AI
openclaw 常见命令解析

OpenClaw 核心命令完全指南:从入门到精通 当您开始接触一个新工具时,最常见的障碍是什么?往往是面对复杂的命令列表感到困惑,只能被动地复制粘贴。这不仅影响效率,而且在遇到问题时更难以排查。 本文将为您深入解析 OpenClaw 的关键指令,帮助您从基础操作者转变为理解原理的熟练用户,全面提升配

热心网友
04.02
全球首款带物理直觉的AI模型在沪发布,理解真实世界规律
科技数码
全球首款带物理直觉的AI模型在沪发布,理解真实世界规律

让AI告别“重视觉效果、轻物理逻辑”的行业短板,近期五一视界(51WORLD)发布全球首款物理直觉世界模型51World Model,实现AI遵循物理规律推演、与真实场景全要素交互的核心突破,彻底破

热心网友
04.01
宇树G1机器人拆解:揭秘超40%毛利率与全供应链控制
科技数码
宇树G1机器人拆解:揭秘超40%毛利率与全供应链控制

一台售价8 5万元的人形机器人,拆开来看,成本只有4 16万元,预估毛利率40 7%。但宇树G1的真正壁垒,藏在硬件之外。3月30日,中邮证券电新团队分析师苏千叶、盛炜、杨帅波发布《宇树G1人形机器

热心网友
04.01

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化
游戏资讯
《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化

《全面战争:中世纪3》:经典延续,如何平衡怀旧与创新? 近期,《全面战争:中世纪3》的项目负责人帕维尔·沃伊斯坦然指出,要打造一款真正优秀的续作,绝不能仅仅依赖对前作模式的简单复刻。这一观点引人深思——尽管《中世纪2:全面战争》至今仍在策略游戏爱好者心中占据着经典地位,但开发团队此次显然决心跳出“照

热心网友
04.02
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀
科技数码
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀

雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战

热心网友
04.02
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验
科技数码
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验

借力AWE2026“一展双区”,MOVA双区协同、震撼登场 备受瞩目的科技盛会——2026年中国家电及消费电子博览会(AWE),于3月12日至15日在上海盛大举办。本届AWE展会首次创新采用“一展双区”的展览模式,主会场位于上海新国际博览中心,分会场则设于上海东方枢纽国际商务合作区,两大展区高效联动

热心网友
04.02
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情
游戏攻略
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情

冰结师技能全解析 踏入2026年,《地下城与勇士》中的冰结师职业,其技能体系已构建得更为成熟与强大。无论是在副本中高效清理海量怪物,还是在决斗场与高手玩家周旋,这个职业都能凭借其独特的冰霜艺术掌控战局。刷图时,酷寒的范围法术可瞬间清屏;而在PVP竞技中,一套将冻结控制与瞬间爆发完美衔接的连招,往往让

热心网友
04.02
iPhone 18 Pro设计挤牙膏了 继续用前代模具
科技数码
iPhone 18 Pro设计挤牙膏了 继续用前代模具

iPhone 18 Pro系列模具不变,屏幕形态将与iPhone 17 Pro保持一致 备受期待的屏下Face ID组件小型化设计与灵动岛区域缩窄方案,预计将被推迟至后续迭代机型中正式应用。 近期,关于iPhone 18 Pro系列的技术传闻持续引发行业关注,尤其在显示与解锁设计领域传言甚多。多方消

热心网友
04.02