平头哥磐脉920智能网卡发布补齐AI算力关键短板_AI热点日报

平头哥磐脉920智能网卡发布补齐AI算力关键短板

类型：热点整理2026-05-17

GPU堆了不少，实际运行效率却像“交通堵塞”？这已成为当前众多AI开发者和企业面临的普遍挑战。近年来，AI领域的核心话题始终离不开“算力”。无论是大模型训练、智能体应用，还是各大云服务商扩建智算中心，讨论焦点似乎总集中在GPU数量、芯片性能与集群规模上。许多人存在一种误解：只要显卡足够多，AI性能

GPU堆了不少，实际运行效率却像“交通堵塞”？这已成为当前众多AI开发者和企业面临的普遍挑战。

近年来，AI领域的核心话题始终离不开“算力”。无论是大模型训练、智能体应用，还是各大云服务商扩建智算中心，讨论焦点似乎总集中在GPU数量、芯片性能与集群规模上。许多人存在一种误解：只要显卡足够多，AI性能就能线性增长。

然而现实情况更为复杂。越来越多从事大模型训练与推理部署的工程师发现，服务器成本越来越高，GPU单卡算力越来越强，但整体系统的效率提升却未能同步匹配。问题的根源或许并不在于算力本身，而在于一个长期被忽视的关键要素——网络能力，即“网力”。

正如平头哥产品总监李旭慧的生动比喻：“如果将算力视为AI时代的石油，那么网力就是输送石油的管道。算力提供原始动力，网力则保障动力传输的效率与稳定性。”

近期，平头哥正式发布了其首款智能网卡产品——磐脉920。作为国内首款内置PCIe Switch的400G智能网卡，其最大吞吐带宽高达400Gbps，主要面向万卡级智算集群、通用计算集群及高性能存储等应用场景。目前该产品已进入量产阶段，并将率先在阿里云数据中心规模部署。

磐脉920的核心使命，正是破解AI算力集群中的“网力”瓶颈。

如今的大模型训练，动辄需要协调成千上万张GPU卡同步工作。单卡性能再出色，也必须与集群中所有其他节点保持高度一致的运算节奏。挑战在于，只要集群中有部分节点因网络或其它原因“掉队”，其余所有节点都不得不进入等待状态。据行业观察，许多万卡级别的智算集群，其GPU实际利用率并不高，“能够达到60%利用率，已属于行业顶尖水平”。

过去，业界更关注“拥有多少张卡”，但在实际的AI训练任务中，系统整体效率并非由性能最强的硬件决定，而是受限于集群中速度最慢的那个节点。“领先节点的算力会持续闲置等待，造成大规模的算力资源浪费。”磐脉920的推出，清晰地指出了一个行业优化方向：当GPU单卡性能发展到一定阶段后，下一步的性能提升重点应当转向哪里。

一张智能网卡，如何盘活整个智算集群？

随着AI智能体深入各类真实业务场景，推理业务所占的比重正在快速提升。“在智能体应用爆发的背景下，推理业务的增长速度明显快于训练业务。”李旭慧指出。

大模型训练强调强同步性，而推理业务则面临海量、突发、小数据包且高频率的请求，对网络低时延和稳定性的要求更为苛刻，这对底层“网力”提出了更高维度的挑战。

概括而言，磐脉920所做的，就是最大限度地减少整个AI计算系统中的“网络拥堵”与“无效等待”，通过全面提升网络能力来充分释放宝贵的AI算力潜能。其卓越性能的实现，主要依托于以下三项关键设计。

第一，支持多路径RDMA技术，打破单一路径的带宽与可靠性局限。

通俗地讲，这好比将原本只有一条车道的高速公路，扩展为多条车道并行分流。更为关键的是，数据包虽然通过不同路径传输，最终却能够按照正确的顺序精准重组，确保数据完整性。李旭慧解释道，磐脉920通过支持逐包喷洒、乱序接收和选择性重传等先进机制，实现了高效的RDMA多路径传输。

其效果是显著的。实测数据显示，磐脉920支持单个队列对（QP）打满400G带宽，而同类主流产品的带宽通常仅为其一半左右。同时，多路径能力能够将交换机端口缓冲区的水线降低高达90%，从而有效减少网络丢包和重传概率。

第二项关键，是将“绕路转发”变为“芯片内直连”。

磐脉920的一大技术亮点，是首次在国内400G智能网卡中集成了PCIe Switch。在传统服务器架构中，PCIe Switch通常位于主板上，数据需要在CPU、主板、网卡等多个节点间转发，导致传输路径长短不一、时延各异。对于需要高度同步的AI分布式训练任务，这种“步调不齐”会直接拖累整体效率。

李旭慧打了个形象的比方：传统架构中，常出现“四个下行通道争抢一个上行通道”的情况，就像四条支流同时汇入一条狭窄的干道，拥堵几乎无法避免。而磐脉920将PCIe Switch集成进芯片内部，使得网卡与CPU、GPU之间形成了更短、更直接的连接路径。减少绕行意味着更低的传输时延，路径统一则带来了更稳定、可预测的同步效率。根据平头哥实测，在相同集群规模和训练任务条件下，部署磐脉920后，大模型训练和推理任务的完成时间可缩短约14%。

第三项关键，是赋予网络设备自主感知与判断的能力。

传统网卡更像被动的“数据搬运工”：接收指令，然后传送数据。而据了解，磐脉920加入了细粒度的网络状态感知能力和可编程的拥塞控制算法。简单来说，就是它能主动“感知拥堵、智能避让”，让网络从被动传输转向主动调度与优化。对于拓扑日益复杂、流量模式多变的AI计算集群而言，这种智能化能力的重要性将愈发凸显。

从这些设计思路不难看出，磐脉920并非追求简单的参数堆砌，它的目标非常务实：让企业已经投入巨资构建的算力资源，浪费得更少一点，从而激发出每一分算力的最大价值。

为何是阿里在定义下一代AI基础设施？

除了产品本身的性能参数，磐脉920背后更值得关注的，是平头哥与阿里巴巴的整体技术布局与战略思路。

过去几年，许多公司的芯片研发集中在单一环节，例如专攻GPU、AI加速卡或CPU。但平头哥选择了一条全栈自研的技术路径。目前，其已形成四条清晰的产品线：真武系列AI芯片、倚天服务器CPU、镇岳存储主控芯片，以及此次发布的磐脉系列智能网卡。它们恰好完整覆盖了现代数据中心的核心三大能力：算力、存力与网力。

李旭慧在采访中强调：“单一的芯片产品无法解决系统全链路的性能瓶颈问题，只有协同优化并打通算力、存力、网力，才能最大化释放AI硬件的整体性能。”这正是平头哥与许多单点突破型芯片公司的核心区别——它并非仅仅打造一块性能更强的芯片，而是致力于从整个数据中心系统层面去审视、定义并解决效率问题。

许多芯片公司的商业化路径是“先有产品，再寻找应用场景”。但平头哥的模式有所不同。李旭慧透露，磐脉920项目立项之时，AI智能体尚未成为行业焦点。团队是基于阿里云自身海量业务实践的深刻洞察，判断未来的AI发展必将驱动数据中心网络能力全面升级。“一线真实业务场景的实际需求，是芯片技术迭代与产品优化的核心驱动力。”先有阿里云全球领先的大规模、高复杂度业务场景，再从这些实际场景需求中反向定义和驱动芯片产品研发，这便是磐脉920独特的商业与技术路径。据悉，与平头哥的倚天CPU、真武AI芯片、镇岳存储芯片一样，磐脉920将率先规模化部署在阿里云数据中心。

从这个视角看，磐脉920的发布，本身就是阿里巴巴“通义大模型、阿里云、平头哥”协同能力的一次具体展现。通义负责前沿模型研发，阿里云提供丰富的业务场景与部署平台，平头哥则攻坚底层核心硬件。模型的需求推动云基础设施持续升级，云上的复杂场景又反向驱动芯片技术快速演进。这种从模型、云到硬件的全栈自研闭环，在国内科技公司中并不多见。“通云哥”一体化的模式虽然前期投入巨大、研发周期长，但一旦走通并形成体系，其所构筑的技术与生态护城河也将极为深厚。

AI竞争发展至今，比拼的早已不再是单点的模型能力或硬件性能，而是这一整套复杂系统能否高效、顺畅、稳定地协同运转。随着AI应用越来越多地从训练走向大规模推理部署，模型、云计算平台与底层芯片之间形成的持续正向反馈循环，其带来的整体竞争优势，或许才刚刚开始显现。

来源：https://www.163.com/dy/article/KROSLFGO05119FMA.html

ai

延伸阅读

补充最近整理过的热点入口。