首页 游戏 软件 资讯 排行榜 专题
首页
AI
摩尔线程开发者大会:上市后首发重磅更新与未来路线图

摩尔线程开发者大会:上市后首发重磅更新与未来路线图

热心网友
14
转载
2025-12-20


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈


国产GPU的叙事重心,正在从“造芯”转向“造生态”。

作者|王艺

摩尔线程上市后的首场大会来了。

2025年12月20日,摩尔线程首届MUSA开发者大会(MDC 2025)于北京中关村国际创新中心正式开幕。

这是摩尔线程首次举办开发者大会,也是国内首个聚焦全功能GPU的开发者盛会。本次大会以自主计算创新与开发者生态共建为核心议题,吸引了2000多名来自产学研的专业人士和开发者参与。

本次大会上,摩尔线程不仅发布了全新的GPU架构“花港”、万卡智算集群“夸娥”和搭载了智能SoC芯片“长江”的个人智算产品MTT AIBOOK(AI算力本),还分享了面向下一代超大规模智算中心的MTTC256超节点架构规划;同时,摩尔线程还展示了自己在推理领域的最新成果,并公布了在具身智能、科学智能(AI4S)、AIfor6G、开发者生态建设等领域的全新进展。

这一系列成果的发布,标志着摩尔线程已成功构建起一套以自主统一架构为根基、贯穿“芯-边-端-云”的完整技术栈,实现了从底层硬件到上层应用的系统化闭环。

1.硬核突破:“花港”架构与万卡集群的算力答卷



如果说过去国产GPU常被诟病的点是“性能”和“能效”,那么此次摩尔线程新一代全功能GPU架构“花港”的发布,则用数据一举打破了之前的刻板印象——该架构采用全新一代指令集,相比上一代架构,算力密度提升约50%,并通过深度架构优化实现最高10倍的能效提升。


在AI计算方面,花港全面支持FP8、FP6、FP4等多种低精度计算单元,显著提升大模型训练与推理的效率;在系统层面,花港可支持10万卡以上的超大规模计算集群,并引入新一代异步编程模型,以提升算力利用率。

同时,花港还在图形领域引入新一代AI生成式渲染架构(AGR),并重构第二代硬件光线追踪引擎,渲染和光追性能实现代际跃升。在安全性方面,花港构建了四级硬件安全防护体系,支持国密与机密算法,面向数据中心和关键行业应用。


基于花港架构,摩尔线程未来将发布AI芯片“华山”。该产品定位为AI训练与推理一体化的高端算力芯片,同时具备强大计算能力,面向大模型和AI超级集群场景。


摩尔线程基于“花港”架构的AI训推一体芯片“华山”图源:「甲子光年」拍摄

在算力方面,华山的浮点计算能力对标国际先进GPU产品,能够支撑主流大模型的训练和推理需求;在系统设计上,华山配备高带宽缓存和大容量存储,并支持MTLink4.0及多种内嵌互联协议,提升集群兼容性与扩展能力。

摩尔线程创始人、董事长兼CEO张建中表示:“一张卡的性能很重要,但真正决定AI训练效率的,是能否稳定、高效地Scale到成千上万张卡。”

据介绍,华山单点最高支持1024颗GPU直连Scale-Up,并集成RAS2.0可靠性机制,支持错误检测、隔离与恢复,提升大规模训练的稳定性和成功率。此外,华山还在硬件层面内置大语言模型关键算子的加速引擎,实现软硬件深度协同。

同时亮相的庐山是一款面向高性能图形渲染计算的GPU产品,适用于CAD/CAE、工业设计、建筑可视化以及高端内容创作等场景。相较上一代S80产品的架构,庐山整体图形性能提升约15倍,AI算力提升64倍,几何处理能力提升16倍。其硬件级光线追踪性能相比S80提升约50倍,显存容量提升至前代的4倍。


摩尔线程基于“花港”架构的高性能图形渲染芯片“庐山”图源:「甲子光年」拍摄

“庐山”内置AI原生能力,并原创AI生成式渲染技术(AGR),让AI能力贯穿几何、像素、光追和后处理等整个渲染流程。同时,全新的统一任务引擎(Unified Task Engine)可实现GPU内部计算资源的全面并行,大幅提升渲染效率。

“庐山不仅是一张能玩3A游戏的显卡,更是一张面向专业设计和工业应用的生产力GPU。”张建中说。

在国产算力的语境里,“万卡”从来不是把卡堆起来那么简单。更难的部分,往往是“能跑多久、跑多稳、跑多满”。因此,摩尔线程全新发布的“夸娥万卡”智算集群,成为了本次大会继“花港”架构之后的第二个亮点。

张建中强调了“夸娥”万卡智算集群在万卡规模下的工程化能力与可靠性:能够支撑万亿参数模型训练,并在多项关键指标上对齐国际主流水平——浮点运算能力达到10Exa-Flops;Dense大模型MFU 60%、MOE大模型MFU 40%;有效训练时间占比超过90%,训练线性扩展效率达95%;

在训练侧,夸娥万卡集群基于原生FP8能力,完整复现顶尖大模型训练流程,并且在技术层面实现关键优化:Flash Attention算力利用率>95%,并突破FP8累加精度等瓶颈。



在推理侧,张建中同样展示了全功能GPU单卡的超强实力:摩尔线程联合硅基流动,在运行DeepSeekR1671B满血版大模型时,MTTS5000单卡Prefill吞吐速度突破4000tokens/s、Decode吞吐速度突破1000tokens/s。


但在AI战场,万卡“能训”只是起点,下一步要解决的是更高密度、更高带宽、更低单位能耗的系统形态。在大会上,摩尔线程公布了面向下一代超大规模智算中心的MTTC256超节点架构规划,主打高密硬件与极致智算性能。


并不是只有芯片和算力集群这样的“钢铁巨兽”。面对更加C端与更广大的开发者,摩尔线程也拿出了诚意。

此次大会上,摩尔线程了发布搭载智能SoC芯片“长江”的AI算力本MTT AIBOOK。其端侧AI算力可达50 TOPS,实现从芯片、驱动到开发环境全栈整合,并构建了Agent的“工具集”,大幅降低AI开发的门槛,同时创新打通了Linux开发、Windows办公与Android应用之间的场景壁垒,这使得AIBOOK不仅完整保留了传统PC的功能,还可以实现高效的AI开发体验。

这一创新工具,也成为开发者接入MUSA生态的关键入口。


2.软件根基:MUSA5.0,从“能用”到“好用”的系统工程

如果说上述产品的发布是摩尔线程上市之后对外界的一次“秀肌肉”和“牛刀小试”,那么MUSA软件栈,才是摩尔线程此次发布会祭出的真正“大杀器”。

国产GPU软件栈,一直都是中国GPU产业的“阿喀琉斯之踵”。当前,英伟达的CUDA生态在AI和科研领域仍然是“事实标准”,垄断着GPU开发的大半江山,而国产GPU多依赖开源方案(如OpenCL、Vulkan)或自研框架,工具链成熟度低、移植成本高、开发者意愿不足。

尽管部分国产GPU专注AI训练/推理,但配套的编译器、算子库、模型优化工具链仍需长期积累;此外,国产GPU的驱动程序的稳定性、游戏兼容性、图形API支持(如DirectX、Vulkan)也不完善,用户体验与国际产品有较大差距。

MUSA(Meta-computingUnifiedSystemArchitecture)是摩尔线程自主研发的元计算统一计算架构,覆盖从芯片架构、指令集、编程模型到软件运行库及驱动程序框架等的全栈技术体系。MUSA不仅定义了统一技术标准,更是被摩尔线程赋予了长期“底层创新”的战略意义,并服务于全功能GPU的多场景目标:AI计算、图形渲染、物理仿真和科学计算、超高清视频编解码等。

在大会上,张建中回顾了MUSA架构与产品的演进路径:

“硬件可以一年一代,但软件必须持续进化。”张建中表示。

在本次大会上,摩尔线程正式发布MUSA5.0。全新升级的MUSA5.0标志着架构步入成熟新阶段,在全栈统一性、极致效能与生态开放性上取得关键突破:

编程生态全面升级:原生MUSA C,深度兼容TileLang、Triton等编程语言,为开发者提供灵活高效的全栈开发体验。

计算效能极致优化:核心计算库muDNN实现GEMM/FlashAttention效率超98%,通信效率达97%,编译器性能提升3倍,并集成高性能算子库,显著加速训练与推理全流程。

开源生态持续扩大:计划逐步开源计算加速库、通信库及系统管理框架在内的核心组件,向开发者社区开放深度优化的底层能力。

前沿特性拓展边界:即将推出兼容跨代GPU指令架构的中间语言MTX、面向渲染+AI融合计算的编程语言muLang、量子计算融合框架MUSA-Q,以及计算光刻库muLitho,持续拓展全功能GPU的算力边界。


“MUSA5.0基本可以完整覆盖今天用户的全部应用场景,能够完美支撑AI GPU的生态体系。”张建中说。

值得注意的是,MUSA并非只面向单一平台或操作系统。MUSA5.0在兼容主流国际CPU与操作系统的同时,也全面支持国产CPU与国产操作系统,实现国产生态与国际生态的并行适配,统一支撑云、边、端全系列GPU产品。

这意味着,无论是数据中心、工作站还是终端设备,摩尔线程均可通过同一套软件体系进行部署和开发,大幅降低了开发与运维成本。

3.战略转身:从“造芯”到“造生态”的突围战

然而,仅有硬件和软件还不够。国产GPU更大的问题,是“不够好用”。

硅基流动创始人兼CEO袁进辉在大会上表示,由于芯片细节太多、场景太杂,因此必须通过软件栈一层层抽象,把复杂性隐藏起来。当抽象不够时,开发者就不得不往下挖,“当开发者发现最上层的抽象不满足需求的时候,他会再往下去发掘更底层的一些工具箱……一直到底层的芯片。”

这就国产芯片普遍有30-50%的理论性能释放不出来的原因——要么是软件栈的API太厚把特性藏起来了,要么就是太薄,让开发者无从下手。

除了性能释放得不够极致、芯片不够好用,北京智源人工智能研究院AI框架研发负责人敖玉龙也指出了国产GPU的另一个问题——当前大部分的大模型仍然是跑在CUDA上的,迁移到国产原生软件栈的成本比较高。

“我们不能总在migration(迁移),怎么基于国产去原生的去做一些事情?大家缺的可能一方面是信心,另一方面产品质量和生态也很关键。”敖玉龙说。

怎么办?众人拾柴火焰高。

袁进辉举了一个行业规律:即便是最主流的平台,新芯片发布后也需要时间被真正“用顺”——“通常过一年之后在上面跑的软件能够加速两倍以上。”更重要的是,很多玩法并非芯片公司预设,而可能是“新的”,是原来那个芯片厂商也没有预计到的。他期待在MUSA上也出现“开发者玩出来”的创新:“这就可能需要摩尔线程提供一些架构的资料手册……让更多开发者去hack。”

这是一种生态的打法:把底层能力向社区开放,让优化与创新不再只能由厂商完成。

摩尔线程联合创始人兼首席技术官张钰勃在大会上表示,在上一代“平湖”架构中,Attention算法的利用率就已经能够做到90%以上了,而同期的H100只能做到75%。“那剩下的东西怎么样能够暴露出来呢?我们就通过像支持Python,甚至是将来基于Tile的编程方式,通过编译器的方式把它暴露出来。我们觉得光靠厂商自己的软件栈还不够,还需要跟开发者做深度的结合。”张钰勃说。

因此,摩尔线程的策略是“双轨制”:一方面在开发者使用习惯上“贴近主流”;另一方面,通过更高阶抽象、DSL/编译器与软硬协同,而是通过与模型团队、系统团队的深度联合优化,把GPU的潜在性能释放出来,确保国产平台永远能“跑满”而不只是“能跑”。

换句话说,摩尔线程正在把叙事重心从“造芯”挪向“造生态”。

这一点,与郑纬民院士在大会上的判断形成了清晰呼应。在郑纬民看来,主权AI并不是单点技术问题,而是一项系统工程,其核心由三根支柱共同支撑:算力自主、算法自强、生态自立。其中,生态的重要性往往被低估,却恰恰决定了一项技术路线能否走得长远。

郑纬民把产业现实说得很直接:不同厂商接口不一,导致用户经常为同一软件做重复适配。“你做出一个芯片固然很重要,但如果没有足够多的开发者愿意长期在上面写代码,那就是白生产。”郑纬民表示,真正决定国产算力成败的,并不是有没有一两款性能亮眼的芯片,而是有没有一个以开发者为中心、能够持续演化的产业生态。“我希望用户工作量的减少,不同芯片、不同系统,最后是一套东西。”

在大会上,摩尔线程联合创始人兼首席技术官张钰勃也表示,未来摩尔线程的GPU,从架构到上面的每一层软件,全部都会坚持开源的路线,为发展好的国产计算生态贡献自己的力量。

正如清华大学高性能计算所所长翟季冬在大会上所说,芯片性能可以在几年内追赶,但生态系统需要十年、二十年的持续投入和积累。当前,国产GPU产业正站在一个关键的十字路口。一方面技术突破正在加速到来,另一方面,碎片化与内卷的隐患也在累积。这些问题如果不解决,国产GPU可能会陷入“有算力用不好、有芯片没生态”的困境。

这正是摩尔线程此次MUSA大会最大的价值所在——它并没有在宣告一场胜利,而是在吹响一场更艰苦战役的号角——战役的主角,是坐在台下的每一位开发者。只有当足够多的中国开发者开始在MUSA平台上“hack”出新玩法,只有当第一个世界级SOTA模型诞生于国产的GPU软件栈上,只有当国外团队开始“反向移植”面向MUSA优化的模型架构,那一天,我们或许才能说,属于中国GPU的时代真正到来了。

(封面图及文中未标注来源图片均来自摩尔线程)

来源:https://www.163.com/dy/article/KH8M43U50512MLBG.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

HBM之父预言:AI主导权将从GPU转向内存
电脑教程
HBM之父预言:AI主导权将从GPU转向内存

4月1日消息,据媒体报道,被业界誉为“HBM(高带宽内存)之父”的韩国学者金正浩指出,AI计算的主导权正加速从GPU向内存转移。随着人工智能从生成式迈向智能体(Agentic AI)时代,内存正成为

热心网友
04.01
“HBM之父”预言:未来AI发展依赖高带宽内存技术
科技数码
“HBM之父”预言:未来AI发展依赖高带宽内存技术

有着“HBM(高带宽内存)之父”之称的韩国教授认为,AI(人工智能)计算主导权正在从GPU转向内存。近日,据韩媒报道,被称为“HBM之父”的韩国科学技术院电气与电子工程学院教授金正浩表示,AI芯片格

热心网友
04.01
国产GPU厂商如何跨越从0到1,突围出货亏损扩大困境?
科技数码
国产GPU厂商如何跨越从0到1,突围出货亏损扩大困境?

(文 万肇生 编辑 张广凯)一边是出货量狂飙突进,另一边却是持续扩大的账面亏损?3月30日,国产通用GPU企业天数智芯发布了一份“矛盾”的2025年成绩单。财报显示,天数智芯2025年营收10 34

热心网友
03.31
摩尔线程集群分期付款指南:6.6亿智算中心采购方案
科技数码
摩尔线程集群分期付款指南:6.6亿智算中心采购方案

3月31日,摩尔线程智能科技(北京)股份有限公司(下文简称为“摩尔线程”)发布公告称,公司于近日与某客户签订了产品销售协议,合同总金额为人民币6 6亿元。摩尔线程披露,合同标的为摩尔线程夸娥(KUA

热心网友
03.31
摩尔线程开源MUSA架构首个全功能GPU物理仿真后端
科技数码
摩尔线程开源MUSA架构首个全功能GPU物理仿真后端

北京商报讯(记者 陶凤 王天逸)3月30日,摩尔线程正式开源MuJoCo Warp MUSA。据称,这是具身智能领域首个基于MUSA架构的全功能GPU加速物理仿真后端,补齐了国产算力在强化学习仿真训

热心网友
03.30

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

强制平仓热图是什么?如何解读?一文详解强制平仓热图的使用
web3.0
强制平仓热图是什么?如何解读?一文详解强制平仓热图的使用

比特币强制平仓热图:揭秘市场流动性猎场的终极指南 2025年11月下旬,比特币价格剧烈波动,一度跌破91,000美元关键支撑。在短短24小时内,全网超过3 01亿美元的资金被强制清算,十余万交易者遭遇爆仓。这些清算事件并非随机分布,而是高度集中在特定的价格水平,形成了一场残酷的“流动性踩踏”。这一切

热心网友
04.03
红色沙漠跃升之塔启动方法
游戏攻略
红色沙漠跃升之塔启动方法

红色沙漠跃升之塔详细启动攻略 如何启动跃升之塔?当主线推进到第八章“面对内心的自我”时,这已成为推动剧情的关键挑战。整个过程更像是一次集平台跳跃与精密电路解谜于一体的沉浸式体验。本文将为你详尽解析这座神秘装置的完整启动流程与核心技巧。 一、启动前置条件 在启程探索之前,务必确认以下几项准备工作已完成

热心网友
04.03
登录欧易OKX提示请求超时?什么原因?如何快速解决?
web3.0
登录欧易OKX提示请求超时?什么原因?如何快速解决?

作为全球领先的数字资产交易平台之一,欧易(OKX)为用户提供了高效、安全的交易体验。然而,当你尝试登录欧易OKX(OKX)交易所时,系统会弹出提示:“请求超时,请稍后重试。”这类问题常让人困惑:网络明明正常、账号也没问题,为什么就是登录不了?这并不是账户故障,而是“访问路径”出现了问题。 简单来说,

热心网友
04.03
珊瑚的化学成分主要是
游戏攻略
珊瑚的化学成分主要是

珊瑚的化学成分究竟是什么?神奇海洋今日答案为你解析 欢迎来到每日海洋知识科普!今日我们一同探索海洋中的瑰丽建筑师——珊瑚。你是否好奇珊瑚的主要化学成分是什么?正确答案现已公布:碳酸钙。 事实上,珊瑚的本质是珊瑚虫分泌形成的坚硬骨骼,其核心化学构成正是碳酸钙。掌握这一知识点,不仅是答对题目的关键,更是

热心网友
04.03
腾讯文档在线文档怎么生成网页
手机教程
腾讯文档在线文档怎么生成网页

在数字化办公成为主流的今天,腾讯文档作为一款优秀的在线协作文档工具,极大地提升了团队效率。而将腾讯文档在线文档生成独立网页,能够进一步扩大文档的传播范围,实现无需登录即可公开访问,便于在各种场景下分享与展示。 将腾讯文档内容转化为网页的操作流程其实非常简单。首先,您需要在腾讯文档中打开您希望发布成网

热心网友
04.03