首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
摩尔线程S5000智源FlagOS训练验证精度领先国际主流1.65%

摩尔线程S5000智源FlagOS训练验证精度领先国际主流1.65%

热心网友
51
转载
2026-05-27

近日,AI算力领域迎来一项重要进展。北京智源人工智能研究院(简称智源研究院)正式发布了基于统一FlagOS技术栈的“全要素”AI训练验证成果。该验证覆盖了六款主流AI芯片、三大模型架构,并在同构与异构千卡集群上完成了端到端训练测试。这标志着国内在多元算力融合与大模型训练平台标准化方面,取得了实质性突破。

作为本次验证的核心参与方,摩尔线程的表现尤为突出。其旗舰级AI训推一体全功能GPU智算卡MTT S5000,已完整适配FlagOS全栈训练软件,包括FlagScale系统调度框架、Megatron-LM分布式训练框架以及Transformer Engine加速库等关键组件。在实际验证中,基于MTT S5000的集群成功完成了对Qwen3-0.6B语言模型的1T Tokens数据从头训练,实现了连续6天以上、超过14000步的无中断稳定运行。

训练结果表现如何?所得模型的Loss收敛曲线与行业基准高度一致,平均相对误差控制在0.82%以内。在标准下游任务评测中,其表现甚至较基线提升了1.65个百分点。这组数据不仅验证了国产全功能GPU在大模型长周期训练中的稳定性,更在模型效果层面展现了竞争力。

长周期高负载验证:4机32卡无中断,6+天稳定训练

本次FlagOS全要素验证的核心目标,是检验在统一软件栈下,多元化AI算力能否胜任端到端的大模型训练任务。摩尔线程与智源团队协同完成了底层适配与系统调优,并于春节前启动了全流程训练验证。

验证采用严苛的实战场景:以4机32卡集群配置,对Qwen3-0.6B模型进行持续训练。在超过6天的马拉松式运行中,系统稳定处理了1T Tokens数据,完成超14000步迭代,全程未发生任何软硬件中断。这一结果直接回应了业界对国产算力在长周期、高负载场景下可靠性的核心关切,证明基于MTT S5000构建的训练集群已具备支撑企业级大模型预训练的可靠能力。

精度稳定对齐:Loss曲线高度一致,评测效果优于基线

大模型训练不仅追求规模,更看重最终效果。训练的稳定性、模型收敛质量以及下游任务表现,才是衡量算力平台的关键指标。其中,训练精度是基础,下游任务评测则是检验训练成效的核心标准。

在FlagOS统一软件栈调度下,采用对齐的数据集和超参数,基于MTT S5000集群的训练Loss曲线与国际主流基线几乎重合,平均相对误差仅为0.82%。尤为值得一提的是,在标准下游任务评测中,训练所得模型的表现较行业标杆基线高出1.65个百分点。

与基线评测偏差的计算方法:

Qwen3-0.6B评测结果(正数为优于基线):

这意味着,开发者基于公开模型架构与数据集,在摩尔线程算力平台上不仅能获得与国际主流平台相当的训练精度,甚至有机会在部分评测指标上实现反超。这为国产AI芯片的应用前景注入了更强信心。

事实上,MTT S5000的训练能力已在更大规模场景中得到验证。今年1月,在摩尔线程千卡智算集群支持下,FlagOS成功完成了智源自研具身大脑模型RoboBrain 2.5的全流程训练与优化。结果显示,其Loss曲线与基线高度一致,最终相对误差小于0.62%;在从64卡到1024卡的规模区间内,多组实验均实现了超过90%的线性扩展效率。这表明MTT S5000的训练能力正向更大规模、更复杂的模型场景持续延伸。

RoboBrain2.5模型评测效果:

端到端训练Loss曲线:

软硬协同创新:构建高性能大模型训练底座

优异的训练表现离不开底层软硬件的深度协同与持续创新。摩尔线程此次验证成绩的背后,是其芯片架构、通信能力、计算单元协同及低精度训练支持等方面长期技术积累的体现。

架构级精度优化:深度打磨矩阵乘法(GEMM)算子

矩阵乘法(GEMM)是大模型训练的核心算子,其数值精度直接影响Loss收敛与模型效果。针对这一关键环节,摩尔线程在MTT S5000架构设计阶段,就对浮点运算的舍入模式、累加路径等计算链路进行了精细化优化。这种从源头开始的打磨,确保了芯片在长时间高强度训练中保持稳定的数值输出,为模型精度对齐与提升奠定了硬件基础。

ACE异步通信引擎:实现计算与通信高效并行

在大规模分布式训练中,卡间通信常成为制约扩展效率的瓶颈。MTT S5000创新性地内置了独立的ACE异步通信引擎。该硬件单元可在不占用核心计算资源的情况下,高效处理跨卡梯度同步等集合通信操作。当Tensor Core全力进行矩阵运算时,ACE已在后台完成通信任务,实现了计算与通信的深度重叠。这也是摩尔线程在千卡规模训练中保持超过90%线性扩展效率的关键技术之一。

多计算单元协同:Tensor Core与Vector Core高效配合

为应对大模型训练多样化的计算负载,MTT S5000对Tensor Core和Vector Core进行了针对性配置与协同优化。实际运行中,密集矩阵运算由Tensor Core承担,而像LayerNorm、Softmax这类内存或带宽密集型算子,则由Vector Core高效执行。基于这一硬件特性,摩尔线程与智源团队对FlagOS软件栈进行了深度调优,最终在FlashAttention等关键算子上实现了超过90%的计算资源利用率,充分释放了平台潜力。

原生FP8支持:协同MT-Megatron稳定高效释放Grouped GEMM潜力

随着模型规模向万亿参数迈进,低精度训练已成为提升效率的必然选择。MTT S5000在硬件层面原生支持FP8数据格式。通过对底层算子库的优化,其FP8 Grouped GEMM在实际场景中的性能表现超过700 TFLOPs。同时,通过对MT-Megatron分布式训练框架的深度适配与优化,进一步保障了FP8训练在主流大模型上的稳定性与可收敛性,能够为包括DeepSeek-V3在内的前沿大模型训练提供有效支撑。

从训练稳定性、收敛精度到下游任务效果,摩尔线程基于MTT S5000交出的这份答卷清晰表明:在统一技术栈下,国产全功能GPU不仅验证了大模型端到端训练的可用性,更展现出在实际训练效果上持续追赶并局部超越的潜力。

北京智源人工智能研究院副院长兼总工程师林咏华评价道:“长期以来,‘对齐CUDA’更多是行业在缺乏替代方案下的一种‘不得已’。但如果能获得比CUDA更优的实际训练效果,才是产业界共同的期待,才能真正激励系统架构的创新百花齐放。摩尔线程在训练实测中超过了国际主流产品的表现,证明了这种期待已经开始照进现实。”

展望未来,摩尔线程表示将继续深化与智源研究院及生态伙伴的合作,以自主创新的全功能GPU算力底座,推动多元算力从“可用”走向“好用”,为中国大模型的研发与创新,提供一个开放、高效且可规模化复制的“国产算力训练范式”。

来源:https://m.elecfans.com/article/7766616.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

摩尔线程S5000智源FlagOS训练验证精度领先国际主流1.65%
AI资讯
摩尔线程S5000智源FlagOS训练验证精度领先国际主流1.65%

摩尔线程MTTS5000GPU在智源FlagOS统一技术栈下完成验证,基于4机32卡集群对Qwen3-0 6B模型进行了超过6天、1TTokens数据的稳定训练。训练所得模型Loss曲线与行业基线高度一致,平均相对误差小于0 82%,且在下游任务评测中表现优于基线1 65个百分点。该结果验证了国产全功能GPU在大模型训练中的稳定性与有效性,并展现出在精度上追

热心网友
05.27
摩尔线程GPU全功能解析与Agent多场景应用落地
业界动态
摩尔线程GPU全功能解析与Agent多场景应用落地

面对算力需求激增,摩尔线程推出全场景AI解决方案。其智能体“小麦”具备多任务处理能力,依托自研芯片与操作系统,落地家庭终端与AIPC。公司还发布国产化具身智能仿真平台,推动智能体进入物理世界。夸娥万卡集群提供高稳定训练与高效推理,并通过MUSA软件栈及开源生态支持开发者,构建从云端。

热心网友
05.27
腾讯研究院AI周榜发布 智谱摩尔线程谷歌位列前三
科技数码
腾讯研究院AI周榜发布 智谱摩尔线程谷歌位列前三

腾讯研究院发布AI关键词周榜,智谱、摩尔线程与谷歌位列前三。智谱提出的ZCube组网架构解决结构性网络拥塞难题,已应用于GLM-5 1生产环境。实测显示,该架构降低硬件成本33%,提升GPU推理吞吐量15%,并显著优化系统响应延迟。

热心网友
05.23
摩尔线程财报营收增长加速 十万卡集群建设新进展
业界动态
摩尔线程财报营收增长加速 十万卡集群建设新进展

2025年4月26日,国内全功能GPU领军企业摩尔线程(股票代码:688795 SH)正式披露了2025年全年及2026年第一季度财务报告。财报显示,公司2025年度营业收入实现15 05亿元,同比增幅高达243 37%;毛利总额同步攀升至9 87亿元,同比增长218 43%。进入2026年,公司增

热心网友
05.22
摩尔线程AICUBE发布 家庭AI智能体时代开启
科技数码
摩尔线程AICUBE发布 家庭AI智能体时代开启

摩尔线程发布家庭智能设备MTTAICUBE,将AIAgent、AIPC与AINAS功能融合。该设备内置智能体“小麦”,能通过自然语言处理家庭事务,如声控观影、旅行规划等,并具备本地存储与算力,以保护隐私并支持持续服务。其旨在成为长期在线、深度融入家庭生活的智能中枢。

热心网友
05.21

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

比特币转错地址如何找回?实用解决方案与预防指南
web3.0
比特币转错地址如何找回?实用解决方案与预防指南

比特币转错地址后,交易确认即难以撤回,资金可能永久损失。若地址无效转账会被拦截;若转入陌生地址,资产由对方控制,追回困难。补救措施包括:交易未确认时可尝试RBF撤销;转入主流交易所可联系客服;转入个人地址则只能尝试联系持有人。法律追索困难,且需警惕诈骗。预防是关键,应养成小。

热心网友
05.27
AI一键生成PPT:智能Word转PPT工具提升办公效率
AI教程
AI一键生成PPT:智能Word转PPT工具提升办公效率

智能化内容创作:AI一键将Word转为PPT,办公效率革命 在快节奏的现代职场中,如何高效处理文档、将复杂信息转化为专业演示,是提升个人与团队生产力的关键。本文将深入解析智能化内容创作如何革新工作流,并重点介绍如何利用先进的AI工具,实现从Word文档到精美PPT的智能、快速转换,助您轻松应对各类汇

热心网友
05.27
QoderWake手机App下载安装与申请入口指南
AI资讯
QoderWake手机App下载安装与申请入口指南

QoderWake移动端已上线,提供APK下载及核心功能。界面针对触控优化,采用卡片布局与手势操作,适配主流安卓设备。内置轻量级Agent运行时,可独立执行原子任务。通信经平台网关加密中转,确保安全。支持多账号切换与工作空间隔离,安装包小巧、绑定简便,可同步近期任务。具备跨端协同、远程调试、任务接管等功。

热心网友
05.27
麦格纳汽车零部件供应商深度解析
游戏攻略
麦格纳汽车零部件供应商深度解析

PowerBI与Tableau是主流数据可视化工具。PowerBI依托微软生态,侧重与Office集成及标准化报表,适合企业协作与稳定分发。Tableau擅长交互探索与视觉表达,适合深度数据分析和制作动态故事板。两者在定位、学习曲线、数据处理和可视化方面各有侧重,选择需结合团队需求、数据环境及使用场景。

热心网友
05.27
无尽噩梦7幻梦怎么下载 最新版预约安装教程
游戏资讯
无尽噩梦7幻梦怎么下载 最新版预约安装教程

《无尽噩梦7幻梦》开放预约,游戏以东方玄幻为背景,玩家扮演捉鬼师探索梦境与现实。玩法融合探索解谜与多流派技能搭配,强调策略性。虚幻引擎提升画面沉浸感,并加入团队副本与社交功能,提供高清国风恐怖体验。

热心网友
05.27