首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
北大系芯片黑马狂飙2000+ Tokens/s:OpenClaw架构如何实现性能截击

北大系芯片黑马狂飙2000+ Tokens/s:OpenClaw架构如何实现性能截击

热心网友
23
转载
2026-03-10


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新智元报道

编辑:桃子 好困

【新智元导读】英伟达200亿美元「招安」Groq,推理芯片赛道一夜变天。但在大洋彼岸,一家北大系创业公司刚刚交出了自己的流片答卷。

NVIDIA GTC 2026前夕,AI推理赛道大雨欲来。

国内死磕「超大带宽流式推理」路线的北大系黑马——寒序科技,今日宣布完成数千万元融资。

蛰伏两年,寒序直接亮出硬货:

首颗样片回片测试全面跑通,单位面积带宽飙至100 GB/s/mm²;

下一代「MRAM+SRAM」混合架构直指2000 Tokens/s极限。

这场破除「内存墙」的国产算力突围战,正从纸面跃向流片。



GTC 2026前夜的「路线倒戈」

大模型硬件的下半场,正迎来一场底层路线的剧烈「倒戈」。

下周,NVIDIA GTC 2026即将开幕。

作为全球AI算力的风向标,业内普遍预测:随着Agent(智能体)与具身智能的大规模落地,算力焦点的天平已彻底向「推理(Inference)」倾斜。

而在此前,业界盛传英伟达已通过约200亿美元的惊人估值级别,以技术授权与核心团队吸纳的方式,实质性绑定了北美明星推理芯片公司Groq。巨头为何对一家初创公司掷出天价?


核心逻辑在于:传统GPU在应对流式大模型推理时,正撞上难以逾越的「内存墙(Memory Wall)」与动态调度延迟。在实时生成的战场上,原本为并行计算而生的GPU,正显得有些「尾大不掉」。

就在英伟达试图在北美完成技术垄断、构筑推理算力护城河的当下,新智元独家获悉:国内专注超快流式推理芯片的创业黑马——「寒序科技」今日正式宣布完成数千万元融资。本轮投资方为启高资本、赛意产业基金,源合资本担任独家财务顾问。

在蛰伏两年后,这家源自北大的硬核团队直接交出了流片答卷,向业界证明:在「确定性流式处理」这条非共识的道路上,中国团队不仅跟得上,而且打得通。



GPU的「原罪」与推理时代的「阳谋」

要理解寒序科技的技术护城河,必须先拆解为何连英伟达都要焦虑。

现代GPU(如H100/Blackwell)是为并行计算而生的艺术品。为了兼容通用计算,它支持复杂的软件生态和多类型算子,内部包含极其复杂的动态调度、乱序执行、多级Cache层级以及Warp调度机制。

在「训练阶段(Training)」,这种吞吐量优先的架构通过大规模数据并行,展现了统治级的实力。

但在「推理阶段(Inference)」,风向变了。

大模型生成Token的过程是串行的、流式的。每生成一个Token,本质上都需要执行一次矩阵向量乘(GEMV):

y = Wx

其中W为权重矩阵(Weight Matrix),x为激活向量(Activation Vector)。

这意味着推理阶段并不是「算力受限」问题,而是典型的「带宽受限计算(Bandwidth-bound Computing)」。在Decode(生成)阶段,GPU庞大的浮点运算单元(ALU)大部分时间都在空转,苦苦等待从显存中搬运权重的指令。这种「高射炮打蚊子」的错配,导致了极大的算力闲置与延迟波动。

英伟达的「阳谋」昭然若揭:既然GPU架构在小Batch推理上存在天生缺陷,那就通过资本手段「收编」像Groq这样走LPU(Language Processing Unit)路线的公司,从而在黑盒内部完成对推理架构的补完。



叫板Groq

寒序科技的「极致断舍离」

寒序科技(SpinPU-E Series)走的是一条与GPU截然不同、却与Groq核心理念高度共鸣的道路:片上存储权重的流式高带宽架构彻底摒弃硬件调度,采用片上存储权重的流式高带宽架构。

参照张量流式处理器(TSP)的底层原则,寒序科技在产品定义上实现了极致的重构。这种架构在内部被形象地称为「生产线模式」,而非GPU的「计件工厂模式」。

1. 算法指导的流式「确定性」

传统处理器依赖多级缓存和复杂的调度逻辑来处理不规则任务,这在大模型看来是多余的负担。寒序通过神经网络前向传播算法指导的Decode专用性、确定性数据流动规划,实现了超高吞吐的精确调度与处理。

这意味着,数据在芯片内部每一纳秒的位置都是预先确定的,消除了任何因动态争抢资源带来的延迟抖动。

2. 面向算子的数据通路

寒序将芯片内部空间划分为针对Transformer模型优化的特定功能块:片上权重存储、GEMV计算单元、向量运算单元。这种设计让权重读取与计算形成完美流水线,真正做到了「数据到达即计算」。

3. 带宽即生命线

在大模型推理中,决定吞吐量的不是FLOPS,而是带宽利用率。公式如下:


寒序科技的核心竞争力,就在于将这个公式的分子(带宽)推向了物理极限。



100 GB/s/mm²

跨越「死亡之谷」的硬核指标

对于芯片初创公司而言,从PPT架构图到硅片回片,中间横亘着被称为「死亡之谷」的流片验证期。

知情人士向新智元透露,寒序科技首颗芯片样片的「回片测试」结果远超预期,核心功能与技术逻辑被全面验证。其中最关键的一项硬指标:其「单位面积带宽」达到了100 GB/s/mm²。

这是一个足以让业界侧目的数字。在流式推理架构中,这一指标几乎可以直接映射为推理速度。

对比传统架构:即使是顶级的HBM3e显存方案,其单位面积能提供的有效读取带宽也受限于显存控制器和物理封装。

对比Groq:寒序在单位面积上提供了更高密度的权重存取能力,这意味着同样的芯片尺寸下,寒序能以更短的时间处理更多的权重参数。

在「得带宽者得天下」的推理赛道,这不仅是一个数据,更是一道分水岭。它使得大模型在高吞吐流式输出时,能够真正满足未来AI Agent对低延迟的苛刻要求。

终极杀招

「MRAM+SRAM」混合架构

Groq虽然快,但它有一个致命的弱点:存不下。

Groq采用纯SRAM方案,虽然速度极致,但SRAM的密度极低。要运行一个70B规模的模型,往往需要数百张卡集群,其成本和功耗让许多中小企业望而却步。

寒序科技的野心不止于复刻Groq,而是要进化它。

据悉,寒序科技在即将流片的下一代芯片中,首创了「片上MRAM + SRAM」的混合存储架构。

SRAM(静态随机存储器):负责最高速的缓存与中间变量计算,保持极低延迟。

MRAM(磁性随机存储器):这种新型非易失性存储器拥有接近SRAM的速度,但密度却远高于SRAM,且功耗极低

这种「北大系」擅长的底层技术融合,让寒序在保持「确定性流式架构」优势的同时,大幅提升了单片的模型容量存储密度。其目标性能直指2000 Tokens/s的极限。

这是什么概念?

目前市面上最快的对话模型推理速度通常在30-50 Tokens/s。如果寒序的2000 Tokens/s方案量产,意味着:

具身智能:机器人可以在毫秒级完成视觉输入到动作指令的推理闭环。

实时同传:翻译将不再有「滞后感」,实现真正意义上的同步。

多智能体(小龙虾):复杂的智能体规划任务可以在瞬间完成多次自我博弈与修正。



北大基因与国产算力的新变量

资料显示,寒序科技成立于2024年8月,核心创始团队源自「北京大学磁学中心」。

这是一个典型的「科学家+工程师」组合。他们在底层新型存储器(MRAM)与存算架构融合领域,拥有深厚的学术积累和工程落地经验。这解释了为什么他们能驾驭这种极其考验硬件底层控制逻辑的异构设计。

有接近本轮融资的投资人对新智元表示:「我们看好寒序,是因为他们没有在GPU的旧地图上寻找新大陆,而是直接重构了推理时代的『底层指令集』。」

寒序选择在GTC 2026前夕释放融资与技术进展信息,显然有着更深层的考量。在算力霸权日益集中的今天,国内需要一种不依赖海外高端HBM供应、能够通过架构创新实现性能弯道超车的方案。



算力霸权的终局之战

回看GTC的历史,每一代架构都在定义一个时代:

2017年,Volta GPU标志着训练时代的全面爆发;

2024年,Hopper H100引入Transformer Engine,定鼎LLM基石;

2026年,这场关于「推理」的战争,将决定AI能否真正走进各行各业。

英伟达虽然强大,但没有任何一个王朝能通过一种架构统治所有场景。在大模型从「博学」走向「行动(Agentic AI)」的过程中,对速度、能效比和实时性的要求,正在为像寒序科技这样的垂直创新者留出巨大的窗口。

寒序科技的这笔融资,只是一个开始。随着Agent系统、多模态模型和具身智能的爆发,AI不再只是单轮对话,而是需要持续的规划与环境反馈。

推理,才是AGI的「最后一公里」。

寒序科技已经在这一硬核战场上落下了关键的一子。

下周的圣何塞,老黄或许会拿出更强的Blackwell变体,但在大洋彼岸,国产算力的黑马们,正在用全新的架构逻辑,截击巨头的阳谋。

您认为在推理芯片赛道,国内企业通过「非通用架构」能否实现对NVIDIA的突围?欢迎在评论区留下您的洞见。

关于寒序科技:成立于2024年,致力于开发超大带宽、确定性流式大模型推理芯片,目前已完成四轮融资。其核心技术路径旨在解决大模型推理中的「内存墙」难题,为实时AI应用提供颠覆性基础设施。

来源:https://www.163.com/dy/article/KNLMFGRE0511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

大湾背书!任正非点拨启明汽车的AI智能赛道新局
科技数码
大湾背书!任正非点拨启明汽车的AI智能赛道新局

车东西(公众号:chedongxi)作者 | 郭月编辑 | 志豪今年2月,广州市在高质量发展大会上明确,广州将支持广汽集团与华为深化战略合作,打造高端智能新能源汽车品牌启境,全域开放无人驾驶场景。春

热心网友
03.27
台湾票房冠军口碑炸裂,清明档黑马预定了!
娱乐
台湾票房冠军口碑炸裂,清明档黑马预定了!

你多久没为一部电影哭过了?催泪神作《阳光女子合唱团》将于3月27日-29日开启点映,4月4日全国上映。这部电影在中国台湾地区已经刷爆了社交平台,上映后票房势如破竹,一举打破《海角七号》尘封18年的华

热心网友
03.26
《逐玉》云合50%收视2.84%,黑马剧如何引爆口碑
娱乐
《逐玉》云合50%收视2.84%,黑马剧如何引爆口碑

《逐玉》的云合数据占比已经超过50%,升到历史第三,仅落后于《狂飙》和《庆余年2》,从这点上看,《逐玉》已经成为爆剧。从目前的情况上看,《逐玉》即将大盘“吸干”,对于同期播出的剧来说,打击绝对是致命

热心网友
03.17
AI应用百强榜:巨头扩张、工具退潮与智能体爆发
科技数码
AI应用百强榜:巨头扩张、工具退潮与智能体爆发

AIX财经(AIXcaijing)原创作者 | 王璐编辑 | 魏佳从DeepSeek的爆火,到如今OpenClaw的出圈,AI应用的迭代速度越来越快,也让外界越来越难判断:谁是真正的赢家,谁只是短暂

热心网友
03.16
Anthropic收购xAI:马斯克旗下项目并入头号黑马
科技数码
Anthropic收购xAI:马斯克旗下项目并入头号黑马

马斯克的AI创业公司xAI近日经历了一系列剧烈人事变动。3年前的11名联合创始人中,现在只有曼努埃尔·克罗伊斯(Manuel Kroiss)和罗斯·诺迪恩 (Ross Nordeen)两人仍在职。1

热心网友
03.15

最新APP

你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25
诸神皇冠
诸神皇冠
棋牌策略 03-25

热门推荐

猎豹浏览器免安装网页版:在线云端使用入口与教程
电脑教程
猎豹浏览器免安装网页版:在线云端使用入口与教程

猎豹浏览器免安装网页版入口是https: web lemur-browser com,具备界面简洁响应迅速、多端同步无缝衔接、安全防护层级丰富、文档处理能力突出、资源兼容性广泛覆

热心网友
03.27
昆仑万维发布三大世界第一梯队AI模型
科技数码
昆仑万维发布三大世界第一梯队AI模型

据昆仑万维集团消息,3月27日下午,昆仑万维(300418 SZ)旗下天工AI顺利举办“世界模型前沿技术与天工AIGC全家桶大模型生态”专场发布会,携Matrix-Game 3 0、SkyReels

热心网友
03.27
杨植麟、张鹏、夏立雪、罗福莉论道大模型:未来一年趋势前瞻
科技数码
杨植麟、张鹏、夏立雪、罗福莉论道大模型:未来一年趋势前瞻

本报(chinatimes net cn)记者石飞月 北京报道大模型未来会走向哪里?OpenClaw的爆火似乎为全行业指明了一个方向,但接踵而至的舆论质疑,又让这个答案变得扑朔迷离。3月27日,在2

热心网友
03.27
Anthropic核心模型意外泄露,网络安全股面临冲击风险
科技数码
Anthropic核心模型意外泄露,网络安全股面临冲击风险

Anthropic一款尚未发布的新AI模型因数据泄露意外曝光,引发市场对AI颠覆网络安全行业的担忧再度升温,网络安全板块股价周五盘前全线下挫。据《财富》杂志报道,Anthropic正在开发并已开始向

热心网友
03.27
Token经济到来,解析互联网大厂的布局与冷思考
科技数码
Token经济到来,解析互联网大厂的布局与冷思考

3月初,腾讯在深圳总部楼下设立“龙虾站”,引发千人排队尝鲜。OpenClaw掀起的“全民养虾”热潮,在短短一个月内让更多人看到了AI Agent深入业务场景的价值,随即推动Token调用量大规模增长

热心网友
03.27