首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
国产算力迈入万卡时代:中科曙光与摩尔线程发布新一代GPU架构

国产算力迈入万卡时代:中科曙光与摩尔线程发布新一代GPU架构

热心网友
44
转载
2025-12-20


经济观察报记者 郑晨烨

12月20日,北京中关村国际创新中心,摩尔线程(688795.SH)举办了首届MUSA开发者大会,在现场,这家刚登陆A股市场的国产GPU公司,发布了其最新的全功能GPU架构“花港”,以及基于该架构的芯片路线图。

就在这场开发者大会举办的两天前,12月18日,另一家老牌国产算力系统厂商中科曙光(603019.SH),对外发布了名为“scaleX”的万卡超集群系统。

在2025年即将结束时,国产算力产业链拿出了两份有实质性突破的新成果,同时也不难看出,国产算力的竞争焦点,已经从单纯比拼单张显卡的参数,转移到了如何构建一个能稳定运行的万卡级系统上。

对于正在训练万亿参数大模型的下游客户来说,单张芯片的性能早已不是唯一的考量标准。

当模型参数量突破万亿,单一芯片的物理性能触及瓶颈,算力的提升只能依靠规模堆叠。行业面临的核心问题,变成了如何让一万张计算卡像一张卡一样协同工作。

在12月20日的发布会上,摩尔线程试图从底层的芯片架构层面解决这个问题。

根据现场信息,其最新的“花港”架构,最核心的变化在于计算密度的提升与对低精度的支持,摩尔线程最新数据显示,相较于上一代产品,新架构的算力密度提升了50%,效能提升了10倍。

此外,“花港”架构还支持从FP4到FP64的全精度计算,并新增了对MTFP6、MTFP4及混合低精度的支持。

基于这一新架构,摩尔线程公布了两款未来芯片的规划,“华山”与“庐山”。

“华山”定位为AI训推一体芯片,专攻大规模智算,旨在为万卡级智算集群提供算力支撑。“庐山”则专注于高性能图形渲染,最新数据显示,“庐山”的AI计算性能较前代提升64倍,光线追踪性能提升50%。

从对下一代产品的规划上看,摩尔线程依然继续坚持走“全功能GPU”的技术路线,即同时覆盖图形渲染与人工智能计算两个市场。

就在摩尔线程发布新架构的前两天,中科曙光也发布了scaleX万卡超集群系统,这是国产万卡级算力集群首次以真机形式公开亮相。

与芯片厂商侧重于微观架构的视角不同,中科曙光解决的是算力堆叠后的物理与工程难题。

构建一个万卡集群,最大的挑战不仅在于软件,还需要解决散热、供电与物理空间限制等多重挑战。

当上万张高功率的算力芯片集中在一个数据中心时,产生的热量和消耗的电力是惊人的。

中科曙光12月18日发布的scaleX万卡集群系统,由16个scaleX640超节点通过scaleFabric高速网络互连而成,总计可部署10240块AI加速卡。

为了解决高密度带来的散热问题,该系统采用了浸没相变液冷技术。

最新数据显示,scaleX万卡集群系统单机柜算力密度相比业界提升了20倍,PUE(能源使用效率)值降至1.04。

这意味着,在同等的物理空间和电力供给下,液冷技术能够容纳更多的算力密度。对于寸土寸金的数据中心而言,这直接关系到运营成本和算力部署的上限。

在解决了“热”和“电”的问题后,横亘在万卡集群面前的另一道墙,是“网”。

在分布式计算中,当GPU数量增加到一定规模时,节点间的通信延迟会成为拖累整体性能的短板,如果网络带宽不够,计算卡计算得再快,也得停下来等待数据传输,这就是业内常说的“通信墙”。

两家公司也都拿出了针对这一问题的解决方案。

摩尔线程在“花港”架构中集成了新一代异步编程模型,并通过自研的MTLink互联技术,宣称支持十万卡以上规模的智算集群扩展;而中科曙光则发布了scaleFabric网络,基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片,实现了400Gb/s的带宽与低于1微秒的端侧通信延迟。

除了训练端的竞赛,大模型应用落地带来的推理需求,也成为两大厂商关注的另一个重点。

随着DeepSeek等国产大模型的参数量达到671B(6710亿)级别,如何在国产硬件上跑通这些“庞然大物”,成为检验硬件厂商成色的试金石。

摩尔线程在现场展示了其与硅基流动合作的测试数据:在DeepSeek R1 671B全量模型上,其MTT S5000单卡Prefill(预填充)吞吐量突破4000 tokens/s,Decode(解码)吞吐量突破1000 tokens/s。

简单来说,国产GPU在应对千亿参数大模型的复杂推理任务时,已经具备了跑通全流程的吞吐能力。

硬件的堆叠终究只是基础,算力的释放最终依赖于软件生态的成熟度。

摩尔线程在大会上宣布其MUSA统一架构升级至5.0版本,并披露了核心计算库muDNN在GEMM(通用矩阵乘法)与FlashAttention(闪电注意力机制)上的效率超过98%。

在硬件规格逼近国际主流水平后,国产厂商的研发重心正在向软件栈的优化转移,试图修补长期以来在CUDA生态面前的短板。

与此同时,中科曙光方面也强调了其系统的兼容性。

scaleX万卡超集群支持多品牌加速卡,并已完成400余个主流大模型的适配优化,这种开放架构的策略,亦反映了系统厂商在多芯片共存时代的生存逻辑,不绑定单一芯片,而是提供一个能够兼容不同国产算力的底座。

(作者 郑晨烨)

免责声明:本文观点仅代表作者本人,供参考、交流,不构成任何建议。


郑晨烨

深圳采访部记者 关注新能源、半导体、智能汽车等新产业领域,有线索欢迎联系:zhengchenye@eeo.com.cn,微信:zcy096x。

来源:https://www.163.com/dy/article/KH7SGKQ005199DKK.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

科技股中期行情持续关注算力与复苏双主线投资策略
AI
科技股中期行情持续关注算力与复苏双主线投资策略

科技板块近期出现回调,分析指出这主要受短期因素影响,人工智能等产业的中期趋势未变。投资布局可关注“算力”与“复苏”双主线,算力方向包括AI、光模块、PCB、存储芯片等核心环节;复苏方向则涉及电网设备、人形机器人及部分传统周期板块。中报业绩将成为验证各细分领域景气度的关键指标。

热心网友
05.18
英伟达全系列GPU现货租赁价格大幅上涨,算力租赁概念反复走强
科技数码
英伟达全系列GPU现货租赁价格大幅上涨,算力租赁概念反复走强

算力租赁市场持续升温,行业格局悄然生变 4月15日,资本市场上的算力租赁板块表现相当活跃,反复走强。午后,协创数据(300857 SZ)、宏景科技(301396 SZ)的股价涨幅超过了10%,利通电子(603629 SH)更是逼近涨停板,股价续创历史新高。与此同时,恒润股份(603985 SH)、亿

热心网友
04.16
OpenAI内部信曝光:断言死敌Anthropic深陷算力瓶颈,差距将持续拉大
业界动态
OpenAI内部信曝光:断言死敌Anthropic深陷算力瓶颈,差距将持续拉大

OpenAI内部备忘录曝光:直指竞争对手Anthropic算力规模“不在一个量级” AI领域的竞争,火药味越来越浓了。就在本周,OpenAI向投资者发送的一份内部备忘录被曝光,内容直指其主要竞争对手Anthropic。OpenAI在文件中毫不客气地指出,双方的“规模体量完全不在一个量级”,并称Ant

热心网友
04.14
当算力开始“排队”,IT分销商不再只是“卖货的人”
科技数码
当算力开始“排队”,IT分销商不再只是“卖货的人”

高端GPU缺货、存储价格上涨、AI项目交付延迟。过去几个月,算力供给的收紧,正在从上游快速传导至整个IT产业链。多位渠道商近日对第一财经记者表示,AI算力需求的爆发已明显拉长关键设备的交付周期。“高

热心网友
04.07
国产万卡智算集群破局背后:99.99%超高可用性如何实现?
科技数码
国产万卡智算集群破局背后:99.99%超高可用性如何实现?

走进上海智能算力科技有限公司(下称“智算科技”)位于上海松江区的国产万卡集群智算中心,刚踏入机房大门,浑厚而持续的风扇轰鸣声便扑面而来。目光所及,数万张GPU在机柜里整齐排列、鳞次栉比;高速网络线缆

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

多平台推广的优势与核心价值解析
业界动态
多平台推广的优势与核心价值解析

在流量日益分散的今天,把鸡蛋放在同一个篮子里,风险不言而喻。多平台推广,早已不是“要不要做”的选择题,而是“如何做好”的生存题。它的核心价值,可以概括为两点:实现“流量风险对冲”,以及构建“品牌触点全覆盖”。通过在不同生态位——无论是搜索、短视频、图文还是电商——建立内容矩阵,企业不仅能有效缓冲单一

热心网友
05.19
DeepSeek知识库搭建教程 从零开始构建企业智能问答系统
业界动态
DeepSeek知识库搭建教程 从零开始构建企业智能问答系统

DeepSeek知识库的核心,是运用RAG(检索增强生成)技术,将DeepSeek强大的大语言模型推理能力,与您的私有文档资源——包括PDF文件、内部代码库、标准操作流程(SOP)等——深度融合。其最终目标是实现基于特定垂直领域数据的精准智能问答,让AI的回答不再是通用泛化,而是具备专业依据、内容详

热心网友
05.19
三大运营商入局AI付费服务 使用门槛低至99元
AI
三大运营商入局AI付费服务 使用门槛低至99元

三大运营商推出Token套餐,将大模型调用量包装为类似流量包的产品,以降低AI使用门槛。中国电信推出个人与企业多档套餐,最低月费9 9元;上海移动推出1元购40万Tokens服务;联通则提供个人与团队版套餐。运营商凭借用户渠道和支付优势,推动算力消费向大众市场普及,可能重塑AI服务消费模式。

热心网友
05.19
本地部署量化模型解决HermesAgent响应慢问题
AI
本地部署量化模型解决HermesAgent响应慢问题

HermesAgent本地运行缓慢常因未量化的大语言模型占用资源过多。可通过AWQ量化模型、llama cpp后端加载GGUF模型、配置vLLM引擎提升并发吞吐、禁用非必要工具降低上下文开销,以及调整SQLite记忆检索阈值等方案优化。这些方法能显著降低延迟,提升响应速度。

热心网友
05.19
AI治理评估工程:破解智能体监管缺失的关键路径
AI
AI治理评估工程:破解智能体监管缺失的关键路径

随着AI智能体能力的持续增强,确保其行为始终符合预设目标与安全边界,已成为行业亟待解决的核心挑战。然而,当前主流的治理方案在防止智能体“失控”或“脱轨”方面,仍面临显著的实践瓶颈。 在之前的探讨中,我们分析了主流治理思路:部署多样化的对抗性验证器,构建一个多层次的安全审查网络。该方案的核心逻辑并非限

热心网友
05.19