中国信通院基于百亿运维数据推出首个智算运维智能体评测基准
类型:热点整理2026-07-01
中国信通院发布AISHPerf-智算运维智能体评测基准,依托近百亿条真实运维数据构建,覆盖5种国产芯片集群,聚焦实战考核而非知识问答,填补了智算运维智能体标准化评估的空白。
昨天,中国信通院联合人工智能软硬件协同创新与适配验证中心、中国人工智能产业发展联盟及工信部人工智能标准化技术委员会,在2026年“众智”大模型开放智算生态协同高级别研讨会上,正式发布了AISHPerf人工智能软硬件基准体系3.0版本。此次升级重点推出两项聚焦AI Infra领域的核心评测基准——AISHPerf-智算运维智能体评测基准和AISHPerf-算子生成智能体评测基准,无问芯穹与清华大学团队作为关键技术支持方深度参与了该项工作。


先亮出几个核心判断:这一新基准的诞生,标志着智算产业已从“堆算力、拼规模”正式迈入“要效能”的新阶段。其中的AISHPerf-智算运维智能体评测基准,不仅是国内首个面向AI基础设施的运维智能体评测体系,更率先将国产芯片集群的运维场景纳入其中,填补了该领域的标准空白。

具体来看,这两项基准各有侧重。前者聚焦运维智能体的实战能力,依托近百亿条真实运维数据进行构建,核心目标不在于考查智能体“知识记得多不多”,而是评估它在真实生产环境中能否切实解决问题;后者则跳出了“能否生成可运行GPU算子”的基础维度,将评测重心锚定在“生成的算子能否在真实量化推理中替代现有算子”——这一工程可部署性的标准,显然更贴近产业落地的实际需求。可以说,从底层算力优化到上层集群运维,这两项基准共同为智算产业的标准化升级提供了统一的能力参照框架。
从“纸上谈兵”到“实战考核”:近百亿条真实数据打下坚实基础
当下AI发展的重心正在发生转移,Token效能取代单纯的算力规模,成为衡量AI基础设施生产力的核心指标。算力和电力是基础常量,而运维能力则是决定Token产出效率的关键变量。但一个现实问题是,业内对运维智能体的评估,多数仍停留在语言问答层面——说白了,更像是一场“笔试”,考察的是知识记忆和标准答案复述,完全反映不出智能体在实际场景中“能不能干成事”。
AISHPerf-智算运维智能体评测基准的出现,正是要打破这种局面。它以无问芯穹积累的近百亿条真实运维数据为底座,经资深运维专家脱敏、标注、筛选,最终提炼出103条高保真、高质量的典型评测用例。整个评测体系打通了从底层硬件故障到用户侧软件Bug的全链路问题,覆盖5大技术栈、44种问题现象、22个细分故障领域、3种难度层级,以及6种国内外芯片(其中5种为国产芯片)。评测过程中不直接指明故障根因,只提供真实的集群环境和有限的问题现象描述,要求智能体自主探索、排查和修复,最终量化输出时延、Token消耗、工具调用效率等关键指标——这才是真正的“实战考核”。
国产芯片生态的“试金石”
国产芯片近年来实现了从“跟跑”到部分领域“并跑”的跨越。据IDC统计,2025年中国市场AI加速卡国产化率已突破四成,国产GPU集群规模进入快速扩容期。但与之对应的是,国产芯片在硬件架构、驱动体系、通信协议及框架适配等方面仍存在显著的技术差异,运维的复杂度和难度远高于成熟生态,这直接制约了国产算力从“规模落地”向“效能释放”的进阶。
值得关注的亮点在于,AISHPerf-智算运维智能体评测基准在设计之初就深度融入了对国产化生态的考量。它率先在同类评测中纳入“天数、壁仞、沐曦、摩尔、昇腾”5种国产芯片集群的运维场景及典型问题测例,覆盖硬件故障、驱动适配、框架兼容、通信协议等典型痛点,首次为国产智算运维智能体建立起统一、可量化的评估标尺。这一空白,终于被填补上了。
未来指向:自主自治的“Token工厂”
运维智能体的深度应用,正在推动AI基础设施自身向“智能体”形态升级。未来的AI基础设施,将是能自我感知、自我修复、自我迭代的自主自治系统。内置的运维智能体将以“管理者”角色,自动调度资源、优化系统,实现算法与基础设施的深度协同。去年以来,无问芯穹已在自有AI基础设施中率先部署运维智能体,工单平均处理时间缩短50%,关键故障处理效率提升约6倍,综合运维成本下降约30%——在算力和电能不变的前提下,Token产能显著提升。
AISHPerf-智算运维智能体评测基准的价值,正是要为这种向“自主自治”演进的范式提供标准基础。通过统一的评测体系,它能加速运维智能体在AI基础设施中的规模化应用,让每一度电、每一张GPU卡都产出更多更高价值的Token,最终助力打造持续输出高质量、大规模、高效率AI生产力的“Token工厂”。

接下来,中国信通院与无问芯穹、清华大学将进一步深化产学研协同,持续优化这套基准体系,扩充场景覆盖维度、丰富数据集规模,推动其成为行业公认的AI集群运维智能体能力评估公共基线。与此同时,双方也将持续拓展AI Infra全领域的核心评测基准布局,构建全栈标准矩阵,为高效、绿色、自治的新一代AI基础设施筑牢标准底座。