平头哥磐脉920智能网卡发布 补齐AI算力关键短板

GPU堆了不少,实际运行效率却像“交通堵塞”?这已成为当前众多AI开发者和企业面临的普遍挑战。
近年来,AI领域的核心话题始终离不开“算力”。无论是大模型训练、智能体应用,还是各大云服务商扩建智算中心,讨论焦点似乎总集中在GPU数量、芯片性能与集群规模上。许多人存在一种误解:只要显卡足够多,AI性能就能线性增长。
然而现实情况更为复杂。越来越多从事大模型训练与推理部署的工程师发现,服务器成本越来越高,GPU单卡算力越来越强,但整体系统的效率提升却未能同步匹配。问题的根源或许并不在于算力本身,而在于一个长期被忽视的关键要素——网络能力,即“网力”。
正如平头哥产品总监李旭慧的生动比喻:“如果将算力视为AI时代的石油,那么网力就是输送石油的管道。算力提供原始动力,网力则保障动力传输的效率与稳定性。”
近期,平头哥正式发布了其首款智能网卡产品——磐脉920。作为国内首款内置PCIe Switch的400G智能网卡,其最大吞吐带宽高达400Gbps,主要面向万卡级智算集群、通用计算集群及高性能存储等应用场景。目前该产品已进入量产阶段,并将率先在阿里云数据中心规模部署。

磐脉920的核心使命,正是破解AI算力集群中的“网力”瓶颈。
如今的大模型训练,动辄需要协调成千上万张GPU卡同步工作。单卡性能再出色,也必须与集群中所有其他节点保持高度一致的运算节奏。挑战在于,只要集群中有部分节点因网络或其它原因“掉队”,其余所有节点都不得不进入等待状态。据行业观察,许多万卡级别的智算集群,其GPU实际利用率并不高,“能够达到60%利用率,已属于行业顶尖水平”。
过去,业界更关注“拥有多少张卡”,但在实际的AI训练任务中,系统整体效率并非由性能最强的硬件决定,而是受限于集群中速度最慢的那个节点。“领先节点的算力会持续闲置等待,造成大规模的算力资源浪费。”磐脉920的推出,清晰地指出了一个行业优化方向:当GPU单卡性能发展到一定阶段后,下一步的性能提升重点应当转向哪里。
一张智能网卡,如何盘活整个智算集群?
随着AI智能体深入各类真实业务场景,推理业务所占的比重正在快速提升。“在智能体应用爆发的背景下,推理业务的增长速度明显快于训练业务。”李旭慧指出。
大模型训练强调强同步性,而推理业务则面临海量、突发、小数据包且高频率的请求,对网络低时延和稳定性的要求更为苛刻,这对底层“网力”提出了更高维度的挑战。
概括而言,磐脉920所做的,就是最大限度地减少整个AI计算系统中的“网络拥堵”与“无效等待”,通过全面提升网络能力来充分释放宝贵的AI算力潜能。其卓越性能的实现,主要依托于以下三项关键设计。

第一,支持多路径RDMA技术,打破单一路径的带宽与可靠性局限。
通俗地讲,这好比将原本只有一条车道的高速公路,扩展为多条车道并行分流。更为关键的是,数据包虽然通过不同路径传输,最终却能够按照正确的顺序精准重组,确保数据完整性。李旭慧解释道,磐脉920通过支持逐包喷洒、乱序接收和选择性重传等先进机制,实现了高效的RDMA多路径传输。
其效果是显著的。实测数据显示,磐脉920支持单个队列对(QP)打满400G带宽,而同类主流产品的带宽通常仅为其一半左右。同时,多路径能力能够将交换机端口缓冲区的水线降低高达90%,从而有效减少网络丢包和重传概率。
第二项关键,是将“绕路转发”变为“芯片内直连”。
磐脉920的一大技术亮点,是首次在国内400G智能网卡中集成了PCIe Switch。在传统服务器架构中,PCIe Switch通常位于主板上,数据需要在CPU、主板、网卡等多个节点间转发,导致传输路径长短不一、时延各异。对于需要高度同步的AI分布式训练任务,这种“步调不齐”会直接拖累整体效率。
李旭慧打了个形象的比方:传统架构中,常出现“四个下行通道争抢一个上行通道”的情况,就像四条支流同时汇入一条狭窄的干道,拥堵几乎无法避免。而磐脉920将PCIe Switch集成进芯片内部,使得网卡与CPU、GPU之间形成了更短、更直接的连接路径。减少绕行意味着更低的传输时延,路径统一则带来了更稳定、可预测的同步效率。根据平头哥实测,在相同集群规模和训练任务条件下,部署磐脉920后,大模型训练和推理任务的完成时间可缩短约14%。
第三项关键,是赋予网络设备自主感知与判断的能力。
传统网卡更像被动的“数据搬运工”:接收指令,然后传送数据。而据了解,磐脉920加入了细粒度的网络状态感知能力和可编程的拥塞控制算法。简单来说,就是它能主动“感知拥堵、智能避让”,让网络从被动传输转向主动调度与优化。对于拓扑日益复杂、流量模式多变的AI计算集群而言,这种智能化能力的重要性将愈发凸显。
从这些设计思路不难看出,磐脉920并非追求简单的参数堆砌,它的目标非常务实:让企业已经投入巨资构建的算力资源,浪费得更少一点,从而激发出每一分算力的最大价值。
为何是阿里在定义下一代AI基础设施?
除了产品本身的性能参数,磐脉920背后更值得关注的,是平头哥与阿里巴巴的整体技术布局与战略思路。
过去几年,许多公司的芯片研发集中在单一环节,例如专攻GPU、AI加速卡或CPU。但平头哥选择了一条全栈自研的技术路径。目前,其已形成四条清晰的产品线:真武系列AI芯片、倚天服务器CPU、镇岳存储主控芯片,以及此次发布的磐脉系列智能网卡。它们恰好完整覆盖了现代数据中心的核心三大能力:算力、存力与网力。
李旭慧在采访中强调:“单一的芯片产品无法解决系统全链路的性能瓶颈问题,只有协同优化并打通算力、存力、网力,才能最大化释放AI硬件的整体性能。”这正是平头哥与许多单点突破型芯片公司的核心区别——它并非仅仅打造一块性能更强的芯片,而是致力于从整个数据中心系统层面去审视、定义并解决效率问题。
许多芯片公司的商业化路径是“先有产品,再寻找应用场景”。但平头哥的模式有所不同。李旭慧透露,磐脉920项目立项之时,AI智能体尚未成为行业焦点。团队是基于阿里云自身海量业务实践的深刻洞察,判断未来的AI发展必将驱动数据中心网络能力全面升级。“一线真实业务场景的实际需求,是芯片技术迭代与产品优化的核心驱动力。”先有阿里云全球领先的大规模、高复杂度业务场景,再从这些实际场景需求中反向定义和驱动芯片产品研发,这便是磐脉920独特的商业与技术路径。据悉,与平头哥的倚天CPU、真武AI芯片、镇岳存储芯片一样,磐脉920将率先规模化部署在阿里云数据中心。
从这个视角看,磐脉920的发布,本身就是阿里巴巴“通义大模型、阿里云、平头哥”协同能力的一次具体展现。通义负责前沿模型研发,阿里云提供丰富的业务场景与部署平台,平头哥则攻坚底层核心硬件。模型的需求推动云基础设施持续升级,云上的复杂场景又反向驱动芯片技术快速演进。这种从模型、云到硬件的全栈自研闭环,在国内科技公司中并不多见。“通云哥”一体化的模式虽然前期投入巨大、研发周期长,但一旦走通并形成体系,其所构筑的技术与生态护城河也将极为深厚。
AI竞争发展至今,比拼的早已不再是单点的模型能力或硬件性能,而是这一整套复杂系统能否高效、顺畅、稳定地协同运转。随着AI应用越来越多地从训练走向大规模推理部署,模型、云计算平台与底层芯片之间形成的持续正向反馈循环,其带来的整体竞争优势,或许才刚刚开始显现。
相关攻略
数据质量是决定AI模型成败的核心要素,它直接关系到模型输出的精准度与可靠性。那么,如何系统性地评估数据,并确保其真正“适用”于AI训练呢?这需要一套严谨的评估框架与保障策略。 一、数据质量评估的核心维度与方法 评估数据质量不能仅凭主观判断,必须从多个关键维度进行客观“体检”,每个维度都有对应的量化方
AI浪潮正重塑传统菜市场。互联网巨头转向智能定价、无人仓储与配送系统,以更低成本、更高效率改造生鲜零售。AI的固定投入与趋零边际成本有望大幅压缩履约费用。尽管菜市场人情味短期难替代,但随着年轻消费习惯改变与AI终端普及,传统模式面临深刻挑战。
初次接触CapybaraAI的用户,常常会下意识地寻找搜索框,却发现界面中并没有传统意义上的“快捷搜索”按钮。这并非设计疏漏,而是源于其根本定位的差异。 您的观察完全正确。CapybaraAI本身并未集成类似浏览器的“一键搜索”功能。它并非一个输入关键词、返回网页列表的搜索引擎。其核心定位是一个强大
在软件开发的代码质量保障体系中,单元测试是不可或缺的核心环节。它不仅是验证代码逻辑正确性的首要防线,更是提升软件可维护性、保障长期开发效率的关键实践。然而,编写与维护高质量的单元测试用例,往往需要开发者投入大量时间与精力。那么,是否存在一种方法,能让单元测试工作变得更高效、更智能? 答案是肯定的。借
如果你的 Hermes Agent 已经部署完成,但在处理基于个人文档的提问时频繁出现“答非所问”或“无法回答”的情况,问题根源很可能在于知识库的导入环节——AI 尚未真正“理解”你的专属数据。无需担忧,这类似于为新员工配备了电脑却未提供工作手册,只需补充相应资料即可。以下五种高效方法,总有一种能帮
热门专题
热门推荐
潮汐守望者梅丽珊卓的出装策略,核心在于极致放大她的爆发伤害与控制能力,同时构建必要的生存保障。以下这套经过版本与实战验证的装备组合,将帮助她主宰峡谷战场,成为团队不可或缺的法术核心。 核心装备 卢登的回声通常是无可争议的首件神话装备。它提供的法术强度与技能急速完美优化了梅丽珊卓的技能循环,而其被动“
4月29日,阶跃星辰正式发布新一代图像编辑生成模型Step Image Edit 2。这款AI图像模型主打“小身材、大能力、快响应”,参数量仅3 5B,却在轻量级图像编辑评测基准KRIS-Bench中斩获综合排名第一。它全面支持文生图、中英文渲染、局部编辑、视觉推理、主体一致性及风格迁移等多种AI图
2026年的AI圈,时钟仿佛被拨快了。技术迭代的浪潮一波未平,一波又起。 尤其是进入四月以来,整个行业像是踩下了油门。Meta携Muse Spark高调回归,ChatGPT Images 2 0的生成效果在社交媒体上持续刷屏,而GPT-5 5的发布,再次将技术天花板向上推升了一个量级。视线转回国内,
从DeepMind到阿里、腾讯,各路顶尖玩家正涌入“世界模型”这个新战场。但大家争夺的,远不止是算力与资源,更核心的较量在于:究竟什么样的架构,才能真正构建起对物理世界的理解? 过去一年半,世界模型已然成为AI领域竞争最密集的焦点。参与者名单几乎涵盖了所有前沿方向:全球科技巨头、视频生成公司、机器人
柴犬币自低点反弹约30%,正尝试复苏。当前面临0 0000076美元附近的200日移动均线关键阻力,若能突破可能上涨约21%,但该位置存在解套抛压。价格需放量突破0 0000064美元以确认短期上涨趋势,下一目标0 0000072美元,下方关键支撑位于0 000006美元附近。





