从1920TPS到2400TPS，华为云Tokens服务全面接入384超节点

时间：2025-12-15 20:19

2025年8月27日，在第四届828 B2B企业节开幕式上，华为云宣布其Tokens服务全面接入CloudMatrix384超节点，通过xDeepServe架构创新，单芯片最高可实现2400TPS、

2025年8月27日，在第四届828 B2B企业节开幕式上，华为云宣布其Tokens服务全面接入CloudMatrix384超节点，通过xDeepServe架构创新，单芯片最高可实现2400TPS、50msTPOT的超高吞吐、低时延的性能，超过业界水平。

发挥“大杂烩”优势，以系统能力打造先进算力

过去18个月，中国AI算力需求呈现指数级增长。数据显示，2024年初中国日均Token的消耗量为1000亿，截至今年6月底，日均Token消耗量已突破30万亿，1年半的时间增长了300多倍，反映了我国人工智能应用规模快速增长，也对算力基础设施的需求提出了更大的挑战。

在以往按卡时计费的基础上，今年3月，华为云正式推出了基于MaaS的Tokens服务。针对不同应用、不同场景的性能和时延要求，还提供了在线版、进线版、离线版乃至尊享版等多种服务规格，为大模型、Agent智能体等AI工具提供了更为灵活、便捷、低成本的先进算力。

而这一次，华为云的Tokens服务正式接入CloudMatrix384，并通过384原生的xDeepServe框架再次实现了吞吐量的突破，从年初的1920TPS提升至2400TPS，TPOT仅为50ms。

大算力的构建不是单点突破，而是一个从硬件到软件、从算子到存储、从推理框架到超节点的全栈创新，充分依托了华为的“大杂烩”能力。

首先，CloudMatrix384 超节点以全新的计算架构创新，突破性能瓶颈，构筑稳固澎湃的算力根基； CANN昇腾硬件使能，优化算子与高效通信策略，让云端的算力能够以最高效的方式被调用和组合；EMS弹性内存存储打破AI内存墙，突破性地实现“以存强算”，彻底释放了每一颗芯片的算力；xDeepServe 分布式推理框架则以极致分离架构Transfomerless让超节点释放出更高效算力。

“拆掉”Transformer，xDeepServe全面激发算力潜能

作为CloudMatrix384 超节点的原生服务，xDeepServe以Transformerless 的极致分离架构，把MoE大模型拆成可独立伸缩的 Attention、FFN、Expert三个微模块，相当于在一台CloudMatrix384上把“大模型”拆成“积木”，并分派到不同的NPU上同步处理任务。之后，再用基于内存语义的微秒级XCCL通信库与FlowServe 自研推理引擎把它们重新拼成一个超高吞吐的LLM服务平台，即Tokens的“超高速流水线”。通过xDeepServe不断调优，最终实现了从非超节点单卡吞吐600tokens/s至超节点单卡吞吐2400tokens/s的提升。

作为硬件加速计算的中间层，CANN包含多个算子库和和XCCL这种高性能通信库等组件，共同支撑AI模型的高效运行。其中，XCCL作为专为超节点上的大语言模型（LLM）服务而量身打造的高性能通信库，能够充分发挥CloudMatrix384扩展后的UB互联架构（UB fabric）的全部潜力，为 Transformerless的全面分离奠定了带宽与时延双重硬底座。

而作为被重构的“去中心”式分布式引擎，FlowServe把CloudMatrix384 切成完全自治的 DP 小组，每个小组自带 Tokenizer、执行器、RTC 缓存与网络栈，完全自给自足，做到千卡并发也不“拥堵”。

目前，xDeepServe已实现MA分离，而下一步，将把Attention、MoE、Decode全部改成自由流动的数据流，并把同样的拼图方法复制到多台超节点，让推理吞吐像铺轨一样线性延伸，最终或将视线吞吐量的更大突破，让每块 NPU 都高效运作，芯片永不排队，推理永不塞车。

聚焦主流大模型，不断提升模型性能

目前，华为云MaaS服务已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify、扣子等主流Agent平台。

华为云积累了大量模型性能优化、效果调优的技术和能力，从而实现“源于开源，高于开源”，让更多大模型可以在昇腾云上跑得更快更好。以文生图大模型来说，在轻微损失画质的情况下，通过Int8量化、旋转位置编码融合算子等方式，在在华为云MaaS平台实现了2倍于业界主流平台的出图速度，最大尺寸支持2K×2K。而在文生视频大模型上，不仅通过量化方式来提速，还通过通算并行等方式，降低延迟与显存占用，大幅提升视频生成速度，相较于友商实现了3.5倍的性能提升。华为云Tokens服务在性能、模型适配、效果调优方面的基础，也让更多企业能够快速开发和构建AI Agent。

而在应用层，华为云已与超过100家伙伴携手深入行业场景，共建丰富的Agent，在调研分析、内容创作、智慧办公、智能运维等领域解决产业难题，让企业更便捷地拥抱AI创新，加速智能化。

如基于MaaS平台推出的今日人才数智员工解决方案，集成了先进的自然语言处理、机器学习和深度学习技术，能实现与用户的智能交互和任务处理，显著提升服务效率与客户满意度；而北京方寸无忧科技开发的无忧智慧公文解决方案可以提升公文处理效能，实现政企办公智能化转型。

以Token为动力的智能社会已经到来，而华为云将以系统级创新能力和全新的Tokens服务构筑先进算力，助力各行各业加速落地AI。

来源：https://www.51cto.com/article/823969.html

华为云

上一篇Spring Boot 轻量级分布式事务：基于消息最终一致性的创新实践 下一篇斯宾塞回应关闭工作室言论引争议

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-11

小米回应新车未上市被曝起火实为SkyNomad遭AI污染

小米新系列尚未正式发布，搜索“SkyNomad”即出现“起火”“事故”等联想词及疑似AI生成的“车祸”视频。小米官方紧急辟谣，已收集相关证据并与平台沟通，指出这是利用AI技术批量造谣的有组织的舆论攻击行为。

科技数码 · 2026-07-11

沃尔玛沃集鲜推出药食同源系列新品

沃尔玛自有品牌沃集鲜推出“药食同源”系列，覆盖饮品、烘焙、零食等品类，分日常与衍生两大产品梯队，联合老字号拓展消费场景，同时加速全国门店升级，以商品力与门店网络推动全渠道增长。

科技数码 · 2026-07-11

聆思科技获近5亿元B轮融资

聆思科技完成近5亿元B轮融资，由安徽与合肥国资领投。资金将用于新一代端侧大模型AI推理芯片研发，从感知模型升级至认知大模型。首颗Nebula系列预计2026年底推出。公司已推出23款芯片，累计出货超1 5亿片，广泛用于家居家电、教育办公等领域。

科技数码 · 2026-07-11

北通鲲鹏70异环联名手柄上市安魂曲薄荷双色699元

北通鲲鹏70《异环》联名款手柄上市，售价699元，提供安魂曲与薄荷双色。礼盒内含定制手柄及周边，前12000套赠游戏道具兑换卡。手柄搭载AI触觉反馈肩键、双切扳机、阻尼可调摇杆，支持星闪2000Hz回报率，兼容PC、NS、手机和车机。

科技数码 · 2026-07-11

全球电动汽车需求持续增长趋势研究机构报告

6月全球电动汽车注册量连续第四个月增长，达200万辆，同比增7%。欧洲市场表现抢眼，注册量飙升31%，北美受税收政策影响下滑13%。德国车企面临挑战，保时捷上半年销量降16%，大众营业利润跌54%。