近期,AI基础设施领域迎来一项重磅动作。在2026“众智”大模型开放智算生态协同高级别研讨会上,中国信通院正式发布了AISHPerf人工智能软硬件基准体系3.0版本。此次升级的核心亮点,是两项直接面向AI Infra领域的评测基准——AISHPerf-智算运维智能体评测基准与AISHPerf-算子生成智能体评测基准。对于关注智算底层能力的人来说,这绝非一次常规更新。

AISHPerf是人工智能软硬件基准体系,而此次国内AI原生基础设施服务商无问芯穹与清华大学团队深度参与了两项评测基准的建设,作为重点技术支持方。
这两项基准的定位极为清晰。前者——智算运维智能体评测基准,是业内首个面向AI Infra运维场景的评测体系,核心目标直截了当:考察运维智能体在真实生产环境中能否真正解决实际问题,而非纸上谈兵。后者则跳出了“模型能否生成一个可运行的GPU算子”这类基础套路,将评测重心牢牢锚定在“生成的算子能否在真实量化推理部署中替代现有算子”这一工程可部署性问题上。简言之,就是要验证它能否真正落地、切实可用。两项基准从底层算力优化到上层集群运维,为智算产业的标准化升级与高质量发展搭建了统一的能力参照框架。
在这两项基准中,AISHPerf-智算运维智能体评测基准尤其值得单独关注。它的意义不仅在于“多了一个评测基准”,更在于它使我国在智算集群运维智能体领域拥有了首个权威评测体系。关键之处在于,该基准率先将国产芯片集群运维场景纳入了评测体系,弥补了过去该领域的标准空白。
当前,AI发展已从“堆算力、拼规模”阶段迈入以“Token效能”为核心的新节奏。算力与电力投入已是AI基础设施的基础配置,无需赘言。但问题在于,过去业内对运维智能体的评估大多停留在语言问答能力层面,更像闭卷考试——侧重知识记忆与标准答案复述,完全看不出智能体在真实运维场景中的实战能力。而这款评测基准从诞生之初就锚定真实生产场景,进行的是“实战考核”。
在设计上,该基准早早融入了对国产化生态的考量,率先在同类评测中纳入了“天数、壁仞、沐曦、摩尔、昇腾”五款国产芯片集群运维的特定场景与典型问题测例。从国产GPU硬件故障、驱动适配、框架兼容,到通信协议等典型运维痛点,全部覆盖在内。可以说,它为国产智算运维智能体建立了第一把统一、可量化的评估标尺,填补了国产智算运维领域的标准空白。
按照计划,中国信通院接下来将从标准研制、测试验证、生态培育三个维度持续推动这项基准的产业应用。一方面,不断增加国产芯片相关的评测用例,逐步构建体系化、全栈化的国产智算运维评测体系;另一方面,通过标准化评测驱动运维智能化能力升级,最终将国产算力集群从“能用”真正推向“好用、高效、稳产”的水平,为整个智算产业的自主可控与高质量发展夯实底层标准支撑。
放眼未来,中国信通院、无问芯穹与清华大学三方将继续深化产学研协同,持续迭代AISHPerf-智算运维智能体评测基准,扩充场景覆盖维度、丰富数据集规模、提升评测结果的可靠性与权威性。最终目标是使其成为行业公认的AI集群运维智能体能力评估公共基线,牵引全行业优质运维智能体的技术迭代与规模化落地。同时,各方也在同步拓展AI Infra全领域的核心评测基准布局,搭建全栈标准矩阵,为构建高效、绿色、自治的新一代AI基础设施筑牢标准底座。
