游乐游手机版
首页/AI热点日报/热点详情

中国信通院发布首个AI Infra运维评测基准

类型:热点整理2026-07-01
中国信通院发布AISHPerf3 0,新增全球首个智算运维智能体评测基准及算子生成智能体评测基准。前者基于近百亿条真实运维数据,覆盖六种芯片包括五种国产芯片,填补国内空白;后者聚焦算子工程落地能力,推动国产算力从能用迈向好用。
6月29日,中国信通院在一场高规格的研讨会上,正式发布了AISHPerf人工智能软硬件基准体系的3.0版本。本次发布的核心亮点,是两项面向AI基础设施(AI Infra)的评测基准:一项专注于智算运维智能体,另一项聚焦于算子生成智能体。这两项基准的背后,均有无问芯穹和清华大学团队提供关键技术支撑。 先说前者——这应该是全球首个面向AI基础设施的运维智能体评测基准。其独特之处在于,不再让智能体机械背诵教科书式的答案,而是将其置于真实的“实战”场景中进行考验。该基准基于近百亿条真实运维数据构建,核心目标只有一个:检验该智能体能否在真实的智算生产环境中,有效解决那些棘手的实际问题。 后者则更贴近产业一线的“痛点”。它跳出了“模型能否跑通一个GPU算子”的基础门槛,直接将评测标准提升了一个维度:你生成的算子,能否在真实的量化推理部署中,替代现有的成熟算子?这已经不是“能不能做”的问题,而是“好不好用、能否落地”的工程实现问题。 AISHPerf体系本身,由中国信通院联合人工智能大模型及软硬件评测实验室,依托国家信创园的人工智能软硬件协同创新与适配验证中心共同搭建。它的目标非常明确:通过多维度指标,考察端到端方案对模型和应用场景的真实承载能力,评估软硬件各层级的协同优化水平与兼容适配能力。 而本次发布的智算运维智能体评测基准,意义尤为突出。它不仅填补了国内在智算集群运维智能体评测领域的空白,更关键的是,将国产芯片的集群运维场景纳入评测体系。这对于构建自主可控的新一代“Token工厂”而言,等于明确了技术方向和标准指引。 **构建新标准:从“纸上谈兵”到“实战考核”** AI产业已经迈入新阶段。过去比拼的是算力规模和芯片数量,但如今核心指标已转变为“Token效能”。算力和电力成为基础投入,而真正决定产出效率的,是运维能力。然而现实是,市面上对运维智能体的评测大多停留在“语言问答”层面,如同一场笔试,考的是谁背的标准答案更准确,根本无法判断智能体在真实机房里能否“干活”。 这个新基准的破局点就在于此。它摒弃虚浮的测试方式。以无问芯穹积累的近百亿条真实运维数据为底座,经过资深运维专家脱敏、标注和筛选,最终提炼出103条高保真、高质量的评测用例。这些用例覆盖了从底层硬件故障到用户侧软件Bug的完整链路,涉及5大技术栈、44种问题现象、22个细分故障领域,并划分为3种难度层级。更值得关注的是,它覆盖了6种国内外芯片,其中5种为国产芯片。 评测流程也极具“实战”色彩:不告知故障根因,只提供真实集群环境与有限的现象描述,智能体需要自行探索、排查、修复。最终考核的是时延、Token消耗、工具调用效率等硬指标——这才是真正检验端到端问题解决能力的方式。 **促进新发展:五种国产芯片覆盖,为国产算力从“能用”到“好用”铺路** 国产芯片近年来进步显著,从“跟跑”到部分领域“并跑”,已成为全国算力基础设施的核心组成部分。IDC数据显示,2025年中国市场AI加速卡的国产化率已突破四成,国产GPU集群规模正快速扩张。但问题也很现实:相比成熟的通用GPU生态,国产芯片在硬件架构、驱动、通信协议、框架适配等方面仍存在较大差异,运维的复杂度和难度更高。这直接拖累了国产算力的Token产出效率,成为从“规模落地”迈向“效能释放”的关键瓶颈。 而这一新基准在设计之初便将国产化生态置于重要位置。它率先在同类评测中纳入了天数、壁仞、沐曦、摩尔、昇腾这5种国产芯片的集群运维场景,覆盖了硬件故障、驱动适配、框架兼容、通信协议等典型痛点。这相当于首次为国产智算运维智能体建立起统一、可量化的标尺,填补了标准空白。 接下来,中国信通院计划从标准研制、测试验证、生态培育三个方向持续推动该基准的产业应用。结合无问芯穹的真实运维数据积累和实战能力,不断丰富国产芯片相关的评测用例。一方面精准定位共性痛点和工程难点,牵引产业链上下游协同攻关;另一方面,用标准化评测倒逼运维智能化能力的升级,推动国产算力集群真正实现从“能用”到“好用、高效、稳产”的质变。 **锚定新趋势:AI基础设施向自主自治的“Token工厂”升级** 运维智能体的深度应用,正在推动AI基础设施本身的形态升级。未来的AI基础设施,应成为能自我感知、自我修复、自我迭代的自主自治系统。内置的运维智能体扮演“管理者”角色,根据训练和推理需求自动调度资源、优化系统。这并非概念炒作——无问芯穹已在自有AI基础设施中率先部署运维智能体,效果显著:工单平均处理时间缩短50%,关键故障处理效率提升约6倍,综合运维成本下降30%。在算力和电能不变的前提下,Token产能实现了显著提升。 AISHPerf-智算运维智能体评测基准,正是为这种向“自主自治”范式的演进提供了标准基础。通过统一的评测体系,指导构建高效、稳定、自主的智能运维体系,加速运维智能体的规模化应用,最终实现Token产能的降本增效——让每一度电、每一张GPU卡,都能产出更多、更高价值的Token。 未来,中国信通院将与无问芯穹、清华大学继续深化产学研协同,持续迭代该基准。不断扩充场景覆盖、丰富数据集、提升评测结果的可靠性与权威性,推动其成为行业公认的AI集群运维智能体能力评估公共基线。同时,双方也在拓展AI Infra全领域的核心评测基准布局,构建全栈的标准矩阵,为建设高效、绿色、自治的新一代AI基础设施筑牢标准底座。
来源:https://finance.sina.com.cn/stock/t/2026-06-30/doc-inifensa3483358.shtml

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。