海光DCU与文心模型深度合作实现47% MFU利用率_AI热点日报

海光DCU与文心模型深度合作实现47% MFU利用率

类型：热点整理2026-05-27

2025年6月30日，百度文心4 5系列大模型正式宣布开源，成为国内人工智能领域里程碑式的事件。同日，海光信息技术股份有限公司宣布，其深度计算单元（DCU）已率先完成对该系列模型的深度技术适配与优化。实测数据显示，预训练模型的浮点运算利用率（MFU）达到了47%，并在多项文本与多模态基准测试中取得了

2025年6月30日，百度文心4.5系列大模型正式宣布开源，成为国内人工智能领域里程碑式的事件。同日，海光信息技术股份有限公司宣布，其深度计算单元（DCU）已率先完成对该系列模型的深度技术适配与优化。实测数据显示，预训练模型的浮点运算利用率（MFU）达到了47%，并在多项文本与多模态基准测试中取得了领先（SOTA）水平。这不仅是一次技术适配，更标志着国产算力基础设施与前沿大模型技术的协同创新，已进入实质性的深度融合与效能验证新阶段。

海光DCU率先展开文心系列模型的深度技术合作 FLOPs利用率（MFU）达47%

技术突破：异构计算架构赋能MoE模型高效训练

海光DCU基于通用图形处理器（GPGPU）架构，其核心突破在于通过百度飞桨深度学习框架，对文心4.5系列模型实现了从训练、推理到部署的全流程深度优化。无论是470亿/30亿参数的混合专家（MoE）模型，还是3亿参数的稠密模型，均获得了全面的性能提升。

此次适配的创新价值具体体现在以下几个关键层面：

多模态异构计算优化：针对MoE架构的动态路由特性，海光DCU设计了智能动态负载均衡策略，显著提升了计算资源调度效率，使显存带宽利用率提升高达30%。
先进混合精度训练：创新性采用FP8低精度计算技术，有效降低了大规模模型训练的显存占用。这使得总参数量达4240亿的模型训练效率逼近国际先进水平，在确保模型精度的同时，大幅降低了算力成本与训练周期。
全栈生态兼容：依托海光自研的DTK软件栈，实现了与文心大模型生态的无缝对接与深度集成，将模型适配周期缩短了50%，为AI应用的快速迭代与规模化部署奠定了坚实基础。

行业价值：自主可控技术体系加速AI落地

优异的性能指标背后，此次合作更深层的意义在于验证了国产DCU在高性能计算与人工智能领域的实用化能力与竞争优势，主要体现在三大方面：

计算效能领先：47%的MFU利用率，较行业平均水平提升超过15%。这意味着同等硬件投入可获得更高的有效算力输出，直接优化了AI研发与部署的总体拥有成本（TCO）。
全模态能力支持：文心4.5模型强大的跨模态理解与生成能力，在海光DCU平台上实现了无损、高效的迁移与运行，为需要同时处理文本、图像、语音的复杂多模态AI应用提供了强大的底层算力支撑。
产业链安全与自主：从底层计算芯片（海光DCU）、深度学习框架（飞桨PaddlePaddle）到顶层大模型（文心ERNIE），构建了完整、安全、自主可控的国产AI技术栈。这为金融、智能制造、政务等对数据安全与供应链稳定性要求极高的关键行业，提供了高性能、可信赖的算力基础设施选择。

综上所述，海光DCU与文心大模型的此次深度技术适配，有力证明了国产算力体系已具备支撑全球前沿AI技术研发与落地的综合实力。这不仅是现阶段技术成果的集中展示，更是未来发展的明确信号。预计后续优化将聚焦于千亿乃至万亿参数超大模型的训练效率突破，持续推动中国自主智能算力生态的繁荣与坚实发展。

来源：https://m.elecfans.com/article/6777381.html

FLOP

延伸阅读

补充最近整理过的热点入口。