不加GPU提升15%算力：大模型网络优化技术解析

首页

AI资讯

热心网友

转载

2026-05-22

过去两年，整个行业在算力军备竞赛中的标准动作只有一个：买更多GPU，建更大集群，堆更高算力。

不加一块GPU，多榨出15%算力：大模型圈对网络“动刀”

但现在，这条路径正在被重新审视。

最近，智谱首次公开了一项已在生产集群中验证过的架构创新——ZCube组网架构。其中披露的一组数据颇为引人注目：GPU一张没加，服务器一台没换，连应用代码都一行没动，集群的推理吞吐量直接提升了15%，而TTFT（首Token响应时间）的P99尾延迟更是下降了40.6%。关键在于，这些数字是在真实生产流量中跑出来的，而非实验室的仿真推演。

对于一家服务上百万开发者的大模型API平台而言，这意味着同一套硬件基础设施，每秒能多扛住15%的并发请求，流量洪峰下的排队等待时间得以大幅缩短。而P99尾延迟近一半的降幅，直接决定了终端用户感知到的“卡顿感”能减少多少。

更让行业内部关注的，是成本结构的变化。根据智谱披露的信息，ZCube架构所需的交换机和光模块数量，比原有方案少了足足三分之一。规模越大，这笔节省的绝对值就越可观。在推理需求持续高增长、算力供给整体偏紧的市场环境下，这种“不动硬件、只动组网”的效率挖潜，无异于对存量算力资产进行了一次极低成本的价值重估。

不是只有智谱一家在抠算力

智谱这次公开的技术细节虽然有限，但核心逻辑已经足够清晰：当集群里数千甚至数万张GPU同时处理推理请求时，每一次KV Cache的跨卡传输、每一次数据同步，都要穿越GPU之间的互联网络。这张“路网”的效率上限，直接决定了GPU本身能发挥出多少真实算力。ZCube的思路，就是从拓扑设计上重新规划这张网，从根源上消除拥塞——而不是等堵车了再去疏导。

几乎在同一时间，另一件事让这个方向的判断有了更重的分量。OpenAI联合NVIDIA、AMD、Intel、Microsoft、Broadcom五大巨头，正式发布了MRC（多路径可靠连接）网络协议。这是一套面向超大规模AI集群的开放网络协议，目前已经部署在OpenAI所有最大规模的超算集群中，用于训练ChatGPT等前沿模型。

两件事放在一起看，指向的判断是一致的：当GPU集群从万卡级向十万卡级跃进，网络早已不是那个被动的“连接件”，而是制约整体效率的核心变量。

不过，它们的技术路径截然不同。MRC是在协议层优化“交通规则”；而ZCube则是在架构层重构“路网”——从拓扑设计上消除拥塞产生的结构性根源。一软一硬，可谓殊途同归。

如果把视野拉开，会发现“不堆硬件、从基础设施和系统架构里挖效率”这件事，正在逐渐成为行业一个微妙的转向。

从硬件侧看，NVIDIA最新一代Blackwell Ultra架构，通过NVFP4精度格式和注意力层加速，在特定推理任务上的吞吐量达到了基础版的数倍。Google推出的第七代TPU Ironwood，单芯片训练推理性能也比前代有数倍提升。

从芯片创业公司看，一批专门为推理设计的非GPU架构也在加速渗透。主攻超低延迟的Groq，其LPU在Llama 2 70B上跑出了每秒300个token的速度，比H100集群快10倍。晶圆级芯片公司Cerebras则声称，其推理速度在多项测试中超越了NVIDIA Blackwell。

从模型架构本身看，通义千问的Qwen3-Next通过混合注意力机制和高稀疏MoE设计，将训练成本压缩到此前的十分之一以下，推理上下文吞吐量提升超10倍。DeepSeek推出的稀疏注意力技术，使得新版模型长文本推理速度比前代快2到3倍，API调用成本几乎砍半。

这些探索有一个共同特征：它们都不再依赖“买更多卡”这个唯一的杠杆，而是在现有算力存量和有限新增投入中，寻找更大的产出倍数。

当“买卡”不再是唯一答案

这场从“堆硬件”向“挖效率”的转向，正在对上游供应链产生实质影响。

最直接的变量来自网络设备端。ZCube方案实现交换机与光模块用量减少三分之一，MRC协议推动两层交换机组网替代传统三到四层架构——两者叠加，意味着AI集群的采购逻辑将发生结构性调整：对高端交换机的需求将从“更多层级”转向“更少层级、更大端口密度”，光模块则加速向800G及以上速率集中。

事实上，市场数据已经在验证这个趋势。据LightCounting统计，2025年800G光模块出货量同比翻倍，1.6T光模块开始出货；预计2026年800G出货量将继续翻倍，1.6T将从2025年的小基数跃升至数千万端口量级。

从资本市场的视角看，AI网络基础设施正在从万卡集群的“配套工程”，升级为产业链的核心价值环节。有机构预测，2026年数据中心交换机总销售额将同比增长86%。谷歌、亚马逊、微软和Meta四大云厂商2026年合计资本支出计划高达数千亿美元。叠加MRC协议推动以太网在超算集群中加速替代InfiniBand的长期趋势，800G/1.6T光模块产业链、高密度以太网交换机及相关芯片、连接器环节，正在进入一个需求结构重塑的窗口期。

北京计算机学会AI专委会秘书长、北京大学特聘研究员张有鱼指出，把时间轴拉长来看，智谱这次公开的ZCube实践，放在行业大背景中有两层含义。

第一层是技术层面的，它用真实生产数据验证了一件事——在千卡乃至万卡集群中，网络架构本身可以成为一个独立的效率杠杆，且边际改造成本极低。当全行业都在GPU采购上投入巨资时，这种“四两拨千斤”的效率挖潜，显然比再下一笔芯片订单更具性价比。

第二层是商业层面的，对于手握大量GPU存量的平台型公司，硬件折旧是固定成本，谁能从既有资产中榨出更多Token产出，谁就能在API价格持续下探的市场里拉大成本优势。智谱实现的15%吞吐提升和三分之一的网络硬件节省，放在百万级并发请求的规模下，对应的是一笔相当可观的运营成本优化。

来源:https://36kr.com/p/3820132079505792

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：谷歌Android XR眼镜今年销量预测达200万台下一篇：智能体视觉应用实践 CV与AI Agent行业场景解析

热门推荐

web3.0

2025年币安Binance官网最新入口与安全访问指南

Binance币安欧易OKX Huobi火币访问币安（Binance）官网时，平台会根据用户所在地区进行智能跳转，这是为了满足不同区域的合规要求。目前，全球通用的主站官方域名是 binance com，记住这个地址，通常是最直接、最安全的访问起点。如何正确访问币安官网操作其实很简单：在浏览器

热心网友

05.23

web3.0

BNB突破1000美元后长期持有者为何坚定持有深度解析背后原因

BNB突破1000美元：长期持有者为何坚定不离场？当BNB价格成功站上1000美元大关，市场并未出现预期中的大规模获利了结潮。相反，众多长期持有者选择了继续坚守。这一现象背后，并非简单的市场情绪驱动，而是基于一套由代币经济模型、生态活力、传统资本流入及政策风险缓解共同构成的复合价值逻辑。本文将深度

热心网友

05.23

web3.0

巴菲特看好的标普500指数表现如何用比特币计价竟暴跌88%

标普500创新高，但以比特币计价却暴跌88%：重新审视资产估值坐标系当市场为标普500指数屡创新高而欢呼时，一个颠覆性的视角正在引发深思。如果我们将计价单位从美元切换为比特币，这幅繁荣图景将彻底改写。数据显示，自2020年以来，标普500指数以美元计价上涨了106%，表现稳健；然而，若以比特币作为

热心网友

05.23

web3.0

加密货币买卖点精准判断指南：掌握最佳时机与实战策略

交易的基石——两大内核分析流派在探讨具体的买卖时机之前，有必要先理清驱动市场波动的两套底层逻辑：基本面分析与技术分析。这两者，好比是导航的地图和罗盘，各有侧重，却又相辅相成。 1 基本面分析：评估“真实价值” 这一流派的核心，是探究资产的内在价值。它关注三个层面：项目质量：这个项目究竟要解决

热心网友

05.23

AI教程

AI技术高效处理文档自动生成专业报告与PPT

如何利用AI技术提升文档处理效率，快速生成专业报告和PPT 在内容爆炸的时代，文档处理的速度与质量，直接决定了商业决策和项目推进的效率。过去，一份专业报告或一份精心设计的PPT，背后往往意味着团队数日乃至数周的伏案工作。但如今，情况正在发生根本性的转变。行业观察显示，利用AI技术优化文档工作流，正从

热心网友

05.23