国产算力迈入万卡时代：中科曙光与摩尔线程发布新一代GPU架构

首页/科技数码/文章详情

国产算力迈入万卡时代：中科曙光与摩尔线程发布新一代GPU架构

时间：2025-12-20 17:04

经济观察报记者郑晨烨12月20日，北京中关村国际创新中心，摩尔线程（688795 SH）举办了首届MUSA开发者大会，在现场，这家刚登陆A股市场的国产GPU公司，发布了其最新的全功能GPU架构“花

经济观察报记者郑晨烨

12月20日，北京中关村国际创新中心，摩尔线程（688795.SH）举办了首届MUSA开发者大会，在现场，这家刚登陆A股市场的国产GPU公司，发布了其最新的全功能GPU架构“花港”，以及基于该架构的芯片路线图。

就在这场开发者大会举办的两天前，12月18日，另一家老牌国产算力系统厂商中科曙光（603019.SH），对外发布了名为“scaleX”的万卡超集群系统。

在2025年即将结束时，国产算力产业链拿出了两份有实质性突破的新成果，同时也不难看出，国产算力的竞争焦点，已经从单纯比拼单张显卡的参数，转移到了如何构建一个能稳定运行的万卡级系统上。

对于正在训练万亿参数大模型的下游客户来说，单张芯片的性能早已不是唯一的考量标准。

当模型参数量突破万亿，单一芯片的物理性能触及瓶颈，算力的提升只能依靠规模堆叠。行业面临的核心问题，变成了如何让一万张计算卡像一张卡一样协同工作。

在12月20日的发布会上，摩尔线程试图从底层的芯片架构层面解决这个问题。

根据现场信息，其最新的“花港”架构，最核心的变化在于计算密度的提升与对低精度的支持，摩尔线程最新数据显示，相较于上一代产品，新架构的算力密度提升了50%，效能提升了10倍。

此外，“花港”架构还支持从FP4到FP64的全精度计算，并新增了对MTFP6、MTFP4及混合低精度的支持。

基于这一新架构，摩尔线程公布了两款未来芯片的规划，“华山”与“庐山”。

“华山”定位为AI训推一体芯片，专攻大规模智算，旨在为万卡级智算集群提供算力支撑。“庐山”则专注于高性能图形渲染，最新数据显示，“庐山”的AI计算性能较前代提升64倍，光线追踪性能提升50%。

从对下一代产品的规划上看，摩尔线程依然继续坚持走“全功能GPU”的技术路线，即同时覆盖图形渲染与人工智能计算两个市场。

就在摩尔线程发布新架构的前两天，中科曙光也发布了scaleX万卡超集群系统，这是国产万卡级算力集群首次以真机形式公开亮相。

与芯片厂商侧重于微观架构的视角不同，中科曙光解决的是算力堆叠后的物理与工程难题。

构建一个万卡集群，最大的挑战不仅在于软件，还需要解决散热、供电与物理空间限制等多重挑战。

当上万张高功率的算力芯片集中在一个数据中心时，产生的热量和消耗的电力是惊人的。

中科曙光12月18日发布的scaleX万卡集群系统，由16个scaleX640超节点通过scaleFabric高速网络互连而成，总计可部署10240块AI加速卡。

为了解决高密度带来的散热问题，该系统采用了浸没相变液冷技术。

最新数据显示，scaleX万卡集群系统单机柜算力密度相比业界提升了20倍，PUE（能源使用效率）值降至1.04。

这意味着，在同等的物理空间和电力供给下，液冷技术能够容纳更多的算力密度。对于寸土寸金的数据中心而言，这直接关系到运营成本和算力部署的上限。

在解决了“热”和“电”的问题后，横亘在万卡集群面前的另一道墙，是“网”。

在分布式计算中，当GPU数量增加到一定规模时，节点间的通信延迟会成为拖累整体性能的短板，如果网络带宽不够，计算卡计算得再快，也得停下来等待数据传输，这就是业内常说的“通信墙”。

两家公司也都拿出了针对这一问题的解决方案。

摩尔线程在“花港”架构中集成了新一代异步编程模型，并通过自研的MTLink互联技术，宣称支持十万卡以上规模的智算集群扩展；而中科曙光则发布了scaleFabric网络，基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片，实现了400Gb/s的带宽与低于1微秒的端侧通信延迟。

除了训练端的竞赛，大模型应用落地带来的推理需求，也成为两大厂商关注的另一个重点。

随着DeepSeek等国产大模型的参数量达到671B（6710亿）级别，如何在国产硬件上跑通这些“庞然大物”，成为检验硬件厂商成色的试金石。

摩尔线程在现场展示了其与硅基流动合作的测试数据：在DeepSeek R1 671B全量模型上，其MTT S5000单卡Prefill（预填充）吞吐量突破4000 tokens/s，Decode（解码）吞吐量突破1000 tokens/s。

简单来说，国产GPU在应对千亿参数大模型的复杂推理任务时，已经具备了跑通全流程的吞吐能力。

硬件的堆叠终究只是基础，算力的释放最终依赖于软件生态的成熟度。

摩尔线程在大会上宣布其MUSA统一架构升级至5.0版本，并披露了核心计算库muDNN在GEMM（通用矩阵乘法）与FlashAttention（闪电注意力机制）上的效率超过98%。

在硬件规格逼近国际主流水平后，国产厂商的研发重心正在向软件栈的优化转移，试图修补长期以来在CUDA生态面前的短板。

与此同时，中科曙光方面也强调了其系统的兼容性。

scaleX万卡超集群支持多品牌加速卡，并已完成400余个主流大模型的适配优化，这种开放架构的策略，亦反映了系统厂商在多芯片共存时代的生存逻辑，不绑定单一芯片，而是提供一个能够兼容不同国产算力的底座。

（作者郑晨烨）

免责声明：本文观点仅代表作者本人，供参考、交流，不构成任何建议。

郑晨烨

深圳采访部记者关注新能源、半导体、智能汽车等新产业领域，有线索欢迎联系：zhengchenye@eeo.com.cn，微信：zcy096x。

来源：https://www.163.com/dy/article/KH7SGKQ005199DKK.html

算力芯片中科曙光摩尔线程知名企业 gpu架构万卡超集群新一代架构

上一篇以AI驱动绿色金融：ESG战略如何转化为全球竞争力 下一篇摩尔线程AI计算笔记本预售：9999元入手强悍算力

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-06-30

多点触控技术实际应用案例分享

多点触控技术借助电容或光学感应实现多指同时识别，重塑了移动设备交互、创意设计、教育协作及零售公共服务等场景，未来将与增强现实、智能家居等技术深度融合，使人机交互更自然高效。

科技数码 · 2026-06-30

MultiTouch多点触控全面教程指南：从入门到实际使用

多点触控技术使屏幕同时识别多指操作，涉及传感、坐标追踪和手势识别。基础手势如双指缩放、旋转及多指滑动提升效率。在创意软件中实现画布控制与参数调节，游戏带来沉浸式操控。保持屏幕清洁、用指腹触碰可优化体验。

科技数码 · 2026-06-30

Lily Camera无人机空中拍摄真实应用案例与心得分享

LilyCamera是一款无需遥控器的抛飞式自拍无人机，通过视觉与GPS追踪实现自动跟拍，瞄准运动与旅行场景。但因技术、供应链和资金问题未能量产。其概念推动了行业跟拍功能发展，强调用户体验简化与工程务实的平衡。

科技数码 · 2026-06-30

Lily相机使用中常见问题解决方法

使用中遇到开不了机、连不上或画质模糊等问题，可先充满电、重启设备、检查镜头及App版本。续航下降可调整高耗电设置，充不进电需用原装配件并清理接口。定期更新固件与应用能解决多数故障，官方支持与用户论坛可获取进一步帮助。

科技数码 · 2026-06-30

Lily Camera从入门到实际使用的完整详细教程指南

LilyCamera是一款抛飞即用的自动跟拍相机，通过计算机视觉与GPS追踪技术，配合腕带追踪器实现无需遥控器的极简操作。其理念影响了后续消费级无人机和运动相机的视觉跟踪系统发展。适用于跑步、骑行等动态场景，充分体现了对用户使用场景的深刻洞察。