思元370芯片MLU370-X8智能加速卡产品手册深度解析
在AI芯片这一前沿科技领域,每一次制程与架构的突破都牵动着业界的目光。寒武纪推出的思元370,作为其首款采用先进Chiplet(芯粒)封装技术的AI处理器,标志着一次关键的技术跨越。该芯片基于领先的7纳米制程工艺,集成了惊人的390亿个晶体管,其最大计算性能达到256TOPS(INT8),性能表现是前代思元270的两倍。这一飞跃得益于寒武纪第三代智能芯片架构MLUarch03的赋能,使得思元370在实际应用中的效能表现尤为突出。
除了核心算力,内存带宽同样是决定AI芯片性能上限的关键因素。思元370是国内率先公开支持LPDDR5高速内存的云端AI芯片,其内存带宽提升至上一代产品的三倍,访存能效更是优于GDDR6方案达1.5倍,从而在处理大规模数据时实现了更高的能效比。为应对复杂的分布式AI训练与推理需求,芯片集成了MLU-Link™多芯互联技术,保障了多颗思元370芯片间能够实现高效协同与算力扩展。在软件生态层面,全新升级的寒武纪基础软件平台引入了推理加速引擎MagicMind,实现了训练与推理流程的一体化整合,这大幅提升了AI模型的开发与部署效率,同时显著降低了用户的学习成本与总体拥有成本。
寒武纪® AIDC® MLU370®-X8智能加速卡训推一体人工智能加速卡
将思元370芯片的强劲性能转化为即插即用的算力解决方案,便是MLU370-X8智能加速卡。这款加速卡采用双芯思元370设计,是一款双槽位、热设计功耗为250W的全尺寸AI加速卡。它提供高达24TFLPOS(FP32)的训练算力与256TOPS (INT8)的推理算力,并全面支持FP16、BF16等多种主流训练精度,为复杂人工智能模型的训练与云端部署提供了可靠的硬件基石。
得益于双芯集成设计,MLU370-X8拥有翻倍的内存容量与编解码资源。其核心亮点在于搭载的MLU-Link多芯互联技术,使得单张加速卡可获得高达200GB/s的双向通讯吞吐性能,这是PCIe 4.0接口带宽的3.1倍。这种卓越的高速互联能力,完美支持单台服务器内八卡的高密度部署,能够高效执行多芯片、多卡的协同训练与大规模分布式推理任务,极大提升了数据中心集群的整体算力利用率。
作为一款全面升级的数据中心级训推一体AI加速卡,MLU370-X8基于思元370芯片打造,采用标准的PCIe 4.0 X16接口,全高全长双槽位(FHFL-Dual-Slot)的标准设计使其能够轻松兼容业界最新的CPU平台,快速集成于各类先进的人工智能服务器中。其250W的功耗设计,为计算机视觉、自然语言处理、智能语音等多样化的AI应用场景提供了强大且高效的算力支撑。
产品规格
| 板卡型号 | MLU370-X8 |
|---|---|
| 计算架构 | Camicon MLUarch03 |
| 制程工艺 | 7nm |
| 计算精度支持 | FP32、FP16、BF16、INT16、INT8、INT4 |
| 峰值性能 | 256 TOPS (INT8) |
| 128 TOPS (INT16) | |
| 96 TFLOPS (FP16) | |
| 96 TFLOPS (BF16) | |
| 24 TFLOPS (FP32) | |
| 内存类型 | LPDDR5 |
| 内存容量 | 48GB |
| 内存带宽 | 614.4 GB/s |
| 视频编解码 | 最高可支持至8K;264路HEVC全高清视频解码;48路HEVC全高清视频编码; |
| 图片编解码 | 图片编解码最高分辨率支持16384x16384;8000 Frames/s 全高清图片解码;6000 Frames/s 全高清图片编码; |
| 系统接口 | x16 PCIe Gen4 |
| MLU-Link™接口 | 4 ports, 16 Lanes, 50 Gbps |
| MLU-Link™带宽 | 聚合带宽200GB/s Bi-direction |
| 形态 | 全高全长双槽位 |
| 最大热功耗 | 250W |
| 散热设计 | 被动 |
在实际的AI工作负载中,真实的性能表现才是衡量硬件的最终标准。根据寒武纪基础软件平台SDK的官方实测数据,在多个主流人工智能模型上,功耗仅为250W的MLU370-X8单卡性能,已能够与市面上主流的350W功耗GPU产品相抗衡。而在更能体现技术深度的多卡并行加速场景中,MLU370-X8凭借其MLU-Link多芯互联技术与寒武纪CNCL通讯库的深度优化,在八卡配置下展现出了更优异的并行加速比与扩展效率,这意味着其能够更有效地发挥大规模AI计算集群的算力潜能。
性能对比

测试环境
250W MLU370-X8:NF5468M5/Intel Xeon Gold 5218 CPU @ 2.30GHz/MLU370 SDK 1.2.0
350W GPU: Supermicro AS -4124GS-TNR/Intel Xeon Gold 6130 CPU @ 2.10GHz/Cuda11.2
相关攻略
寒武纪思元370芯片采用7nm工艺与Chiplet技术,集成390亿晶体管,算力达256TOPS。其MLU370-X8加速卡搭载双芯,支持LPDDR5内存与MLU-Link多芯互联,提供高效训练与推理性能。实测显示,该卡在250W功耗下性能媲美主流350WGPU,多卡扩展效率突出。
寒武纪2025年营收接近65亿元,同比增长超450%,并实现约20 6亿元净利润,首次全年盈利。云端产品贡献主要收入,规模效应与成本控制推动利润率提升。AI算力需求增长与国产替代趋势为公司带来机遇,但存货高企、客户集中及市场竞争加剧等风险仍需关注。未来需持续技术创新并拓展新市场以巩固发展。
寒武纪AI芯片产品全解析:云端与边缘计算解决方案 在人工智能技术飞速发展的当下,算力基础设施已成为产业智能化的基石。作为国产AI芯片领域的代表性企业,寒武纪始终致力于为各行各业的智能化转型提供强大、可靠的硬件算力支撑。其产品体系全面覆盖从边缘侧到云数据中心的全场景AI计算需求。 寒武纪的产品线规划清
2026年4月29日,人工智能芯片领军企业寒武纪正式披露了其第一季度财务报告,多项核心业绩指标展现出强劲的增长态势。 财报数据显示,本报告期内,寒武纪实现营业总收入28 85亿元,较去年同期大幅攀升159 56%。其盈利能力的提升尤为显著:归属于上市公司股东的净利润达到10 13亿元,同比激增185
热门专题
热门推荐
随着人工智能大模型与机器视觉技术的深度融合与产业升级,一个根本性的挑战愈发关键:底层视觉数据基础设施的能效水平,直接决定了上层AI应用的成本边界与识别精度的上限。近期,Robo ai (NASDAQ: AIIO) 旗下专注于AI基础设施的Neurovia AI,在第九届国际安全与国家风险防范展(IS
数字货币成功变现需掌握关键技巧:理解市场动态与主流币种联动,选择安全高流动性平台,制定明确风险目标和交易策略,严格执行止损与分散投资。市场持续变化,保持学习与适应能力是长期稳健交易的基础。
618购物节是电竞玩家升级装备的良机。华硕TUFGaming系列的战杀27与小金刚显示器凭借FastIPS面板、高刷新率、精准色彩及丰富电竞功能,以高性价比满足不同玩家对帧率与画质的追求,成为热门选择。
移动端二战空战游戏以机械浪漫与硬核操作吸引玩家。多款作品各具特色:或精细还原战机与基地经营,或重现太平洋战场任务,或融合弹幕射击与昼夜战术,或侧重战机收集养成,或提供割草式爽快体验。它们以历史氛围带玩家重返决定历史的天空。
《和平精英》中,“安V收车币”作为一种新兴交易方式,为玩家获取稀有车辆皮肤提供了安全便捷的渠道。它满足了玩家个性化需求,提升了游戏体验与沉浸感。参与交易需选择正规平台,合理规划消费并遵守官方规定,以保障自身权益。这一模式活跃了游戏经济,丰富了玩家的资源选择。





