百亿真实数据驱动首个AI Infra运维智能体评测基准开源_AI热点日报

在全球智能体加速部署的大背景下，算力需求正呈现指数级增长，以GPU为核心的AI基础设施变得愈发关键。摩根士丹利的一份预测报告指出，到2028年，全球AI基础设施累计总投资将达2 9万亿美元。然而，按照行业通用成本结构测算，运维人力、故障损失以及集群闲置这三项成本合计占比高达15%至20%。换言之，全

在全球智能体加速部署的大背景下，算力需求正呈现指数级增长，以GPU为核心的AI基础设施变得愈发关键。摩根士丹利的一份预测报告指出，到2028年，全球AI基础设施累计总投资将达2.9万亿美元。然而，按照行业通用成本结构测算，运维人力、故障损失以及集群闲置这三项成本合计占比高达15%至20%。换言之，全行业潜在的可优化空间超过4350亿美元。

作为全球领先的AI基础设施服务商，无问芯穹早在去年10月便率先启动了运维智能体的早期版本研发并成功部署。实践成果十分显著：相比传统人工运维，智能体的工单平均处理时长缩短了50%，关键故障处理效率提升约6倍；运维人员从重复性的排查工作中彻底解放，人效提升超过5倍，综合运维成本下降约30%。这为大规模GPU训练与推理业务提供了更加稳定、高效的基础设施保障。

然而，一个核心问题随之浮现：到底什么样的运维智能体才算得上“好用”？

AI集群运维是一个极其复杂的场景，涉及系统知识、工具调用以及长链路推理，是对智能体能力的全面考验。过去人们更看重模型的语言能力，但进入基础设施领域后，评判标准已然改变——能否真正解决实际问题，成为最终的决定因素。因为最终它会影响每一度电、每一张GPU卡的产出效率。

基于这一现实，中国信通院推出了首个面向AI Infra运维的智能体评测基准——AISHPerf-智算运维智能体评测基准。无问芯穹作为重点技术支持单位参与建设，依托积累的近百亿条真实运维数据，为智能体在智算运维场景中的落地定义了核心问题，并提供了一个可参考的基线。与传统Benchmark不同，这一基准不关注模型“说得有多好”，只在意它“能否把事情做成”。

以下是本次工作的核心内容，从数据到工程再到评测体系，我们逐步进行拆解。

01

不再纸上谈兵，让运维智能体真正解决现实中多样化的生产问题

2025年4月7日，无问芯穹某客户反馈训练任务出现无规律的剧烈性能波动。基础设施团队第一时间介入，排查了网络链路、存储性能、节点硬件状态等所有常规维度，均未发现异常。为了定位这个“幽灵故障”，团队前后投入7名资深研发运维人员，连续奋战15天，从用户训练框架的模型切分策略，一路向下排查到网络协议、存储参数配置，最终才发现问题根源与存储系统的预期缓冲机制设计存在偏差。

这场持续半个月的故障，累计消耗了105人天的研发运维人力，256台服务器全程处于闲置空转状态。如果排查周期再拉长、故障持续发酵，直接后果就是大规模资源空转、客户训练进度停滞，甚至造成灾难性的业务停摆与资产损失。而像这样隐蔽、复杂、跨技术栈的故障，在基础设施服务商的日常工作中并不罕见。

正是基于多次这样苦涩的实战教训，无问芯穹希望将碎片化的运维经验结构化、标准化，为运维智能体明确核心问题边界，并提供一套可执行的评测基准。本次基准全程由领域专家主导评测，多位资深运维专家对数据进行了精细标注与严格筛选，确保每条问题都具备真实生产价值与高质量评测意义。

（一）真实生产场景的数据积淀

AISHPerf-智算运维智能体评测基准源自无问芯穹自成立以来积累的百亿条真实运维数据，筛选后获得十万条场景真实、链路完整、信息完备的有效数据。经过严格的三阶段数据工程处理，最终抽象合成为103条高质量、高保真的评测用例。

数据收集范围覆盖2024年至2026年1月的全部用户工单及其关联的IM话题与文档附件，以及所有线上集群的监控告警数据。通过过滤低质内容、去重、脱敏等严格的数据清洗流程，剔除了客户需求、未查明原因、与平台逻辑强耦合等不适合作为通用评测的内容，最终保留了无重复、高质量、信息安全的问题样本。每条用例都包含真实的问题现象、完整的排查链路和明确的故障根因，确保评测结果能够真实反映智能体在生产环境中的实际表现。

（二）多样化的跨层栈问题覆盖

AI原生基础设施平台的运维复杂度远超传统IT基础设施。故障可能发生在从裸金属硬件到上层训推框架的任何一层。因此，该基准打通了从底层硬件故障到用户侧软件Bug的全链路问题，囊括了多种表现形式、故障根因和修复方案。

不仅全面涵盖了网络、GPU、宿主机、云原生平台等传统运维领域，还首创性地纳入了AI原生领域的大模型训练、推理关键问题。同时问题覆盖天数、壁仞、沐曦、摩尔、昇腾5种国产芯片，真正实现了多维度、多层次、多样化的问题场景全触达。

按照技术栈层级，问题被划分为宿主机、高性能设备、容器平台、训推脚本、安全与运营商五大类，涵盖44种问题现象和22个细分故障领域，基本覆盖了真实运维场景中可能遇到的所有情况。所有问题分为3种难度级别，平均人工处理耗时为1.5小时，充分保障了问题的复杂性与挑战性。

（三）开放式的故障探索与处置

传统模型评测更像笔试，侧重考察知识记忆与标准答案复述。而AISHPerf-智算运维智能体评测基准则是一场实操考核，聚焦于考验智能体贴近生产环境的端到端问题解决能力。

该基准不明确指出故障根因，只提供真实的集群环境和有限的问题现象描述，要求智能体自主探索、自主排查、自主修复。这对智能体提出了极高要求：必须理解从物理设备到上层软件实现的多层复杂技术栈，能够正确与真实环境交互，高效处理长上下文信息，并在复杂场景中完成多跳推理与决策。

举个例子，针对“训练任务卡死”这个常见问题，评测系统会注入特定故障，并启动一个开发机容器，其中包含隐藏了源代码的训练脚本。智能体只会收到一段描述训练任务卡死的客户反馈和复现方式，必须自行复现问题、排查可能原因、验证假设并最终修复故障。这种开放式的评测方式，真正检验的是自主决策能力和问题解决能力，而不是知识记忆能力。

02

配套利器：GPU集群故障模拟工程

在大规模GPU集群的运维实践中，如何在不破坏生产环境的前提下验证系统的故障恢复能力，一直是行业普遍面临的棘手挑战。物理硬件故障注入成本极高、速度慢且不可重复，而脱离真实集群用纯软件模拟又存在真实度不足的问题。

为了解决这一难题，AISHPerf-智算运维智能体评测基准配套提供了AIops-Chaos——一个专为GPU集群设计的混沌工程项目。其核心思路是通过软件层精准模拟各类硬件故障场景，包括GPU掉卡、显存错误、NVLink故障、网络分区等典型异常，同时结合真实的业务负载构造高保真的测试环境。这种“软件模拟+真实集群”的模式，既避免了物理损坏带来的高昂代价，又确保了故障注入的可控性与可重复性。

在工程实现上，AIops-Chaos针对GPU与RDMA等智算集群的故障场景，采用了创新的技术方案：

GPU故障模拟：通过劫持nvml库，实现了支持注入多种GPU故障的nvidia-smi，包括温度异常、掉卡、频率异常、风扇故障等
RDMA故障模拟：端侧故障直接操作物理机；对交换机故障，采用rdma hostmesh作为可观测方案，通过构造故障指标来模拟

AIops-Chaos展现出了高效、低成本、快速的优势。仅需一台GPU+多轨RoCE NIC服务器，即可支持构造多机任务故障现象，并实现分钟级的故障编排与自动化恢复验证。

03

科学量化：一个多维度评估体系

（一）评估指标

AISHPerf-智算运维智能体评测基准采用多维度综合评估体系，评估指标以结果为导向，分为主指标与辅助指标。不仅关注智能体解决问题的正确率，还全面考量时延、Token消耗、工具调用效率等关键指标。

1.1 主指标：综合得分

主指标为综合得分，用于衡量智能体在整个运维任务集上的总体解决能力。

要获得更高的分数，必须做对中等和困难题目。

1.2 辅助指标：平均耗时、平均Token消耗与工具调用次数

辅助指标由平均耗时与平均Token消耗构成，用于评估智能体解决实际问题的时效性与成本。

平均耗时用于衡量智能体在完成任务时的时延表现，单位为秒/任务。时延定义为从开始调用智能体到智能体返回最终结论的耗时。平均Token消耗则用于衡量智能体完成任务的资源成本，单位为Token/任务。需要注意的是，如果智能体不调用工具，直接猜答案，即使答案正确也会被判为错——这是为了确保智能体确实与环境交互后推理出答案。

（二）评估框架

当前社区的评测工具普遍存在三大痛点：缺乏对各类智能体应用的统一接口支持、仅关注最终答案而缺少对中间过程的细粒度评测、不包含环境定义与构造流程。

为了解决这些问题，无问芯穹开发了AIops-Eval——一个端到端的智能体评测工具链。它包含五个核心子模块：

User模块：负责与智能体交互，支持数据集驱动的固定输入和LLM驱动的真实用户模拟
Agent模块：待评测对象，原生支持本地LLM和基于langgraph构建的本地智能体，并预留了远程智能体接口
Env模块：为智能体提供交互环境，负责每轮测例前后的环境构造与清理
Evaluator模块：对智能体的完整轨迹进行评测，支持自定义规则评测和LLM-as-a-judge评测
Tracing模块：基于开源的langfuse实现，完整采集智能体的执行轨迹

04

实测验证

团队对基于ReAct loop的简单智能体进行了全面测试。测试使用了多款不同大小的国内外主流模型，为了公平测试模型自身的长程多跳推理能力，智能体只使用shell工具，且无法连接互联网进行搜索。下图展示了不同模型的总得分与时延，以及模型与人类的对比：

从图中可以清晰看到几个关键结论：

所有模型的总得分均在50分以下，但达到了数量级的时效性提高
成功率相比人类运维专家仍有明显差距

下面的图展示了不同难度分类下各模型的表现：

不同难度的正确率

不同难度tool call时间占比

不同难度token消耗

在中等与困难难度上，所有模型的正确率均小于50%。这意味着即使是最顶级的旗舰模型，也难以稳定、出色地解决复杂运维问题。面对困难问题，tool call时间占比显著增加，但正确率却下降，说明模型无法精准有效地采集信息。不同难度问题的Token消耗没有数量级差别，这表明在运维领域，面对简单问题时，智能体还无法像人类一样快速做出精确判断。

下面的图展示了模型对不同技术栈任务的表现：

不同技术栈任务的正确率

不同技术栈token消耗

模型更善于处理单纯的代码类Bug，而在硬件故障上，模型的正确率普遍较低，Token消耗更高。这意味着模型对于硬件故障的置信度不够高，倾向于反复思考和确认——这反映出智能体与运维专家的技能可能存在正交性。

基于对大量测试轨迹的分析，团队总结出智能体在解决运维问题时的几种典型失败模式：

处理任务的稳定性不足：模型可能生成不符合工具调用解析规则的Token，导致智能体执行异常终止；也可能违反输出格式要求或执行禁止的危险操作，导致任务无法得分。
推理链的质量差：模型可能治标不治本地采用临时方案来达到表面修复效果；可能输出看似合理但经不起推敲的推理过程；还可能只输出宽泛的排障思路，不经过考证就直接给出结论。
决策与执行不够安全：模型可能执行危险的工具调用，执行过程卡死，导致整个物理环境崩溃，甚至需要运维人员人工介入才能恢复。

05

实践思考与未来展望

过去一年AI的发展态势有目共睹。从大模型到智能体，从训练到推理，行业正在形成一个共同的认知：技术发展的瓶颈早已不再局限于模型层，底层算力基础设施同样是决定产业上限的关键要素。从本质上讲，AI系统已经演变成一座“Token工厂”：模型是生产逻辑，数据是原材料，而GPU集群则是生产设备，工厂的最终产出是一个个Token。但当视角下沉到更底层时，一个更现实的问题浮出水面：“Token工厂”远没有想象中那么高效。

AISHPerf-智算运维智能体评测基准正是基于无问芯穹长期在AI基础设施领域建设与实践的经验，针对Token工厂全栈提效的阶段性思考与探索成果。AI正在重塑基础设施，基础设施也在反过来决定AI的效率上限。在这两者不断交织的过程中，希望此次工作能够成为一个小的起点，让“系统自己解决问题”这件事变得更可衡量，也更可实现。

此次开源只是一个开始，未来仍有大量工作可以深入挖掘。

将持续合成更丰富、高质量的数据，覆盖更多技术栈与领域，更全面地捕捉智能体的运维能力演进趋势
同步完善AIops-chaos混沌工程，实现更丰富、真实、鲁棒的故障注入，为智能体搭建更完善可信的故障模拟环境，提升数据集丰富度与评测结果可靠性
在评测框架上做更开放的支持。当前版本基于ReAct范式构建，后续将逐步扩展评测框架的适配能力，让不同类型的智能体都能无缝接入，而非局限于某一种范式进行对比

立足当下国产芯片大力发展和国产GPU集群建设日益蓬勃的产业背景，面向国产GPU集群的运维工作愈发关键，新问题与挑战也将随之增加。评测集将持续拓展面向国产芯片集群运维的特定场景及问题，填补国产智算运维评测领域的空白，有效助力国产芯片集群运维能力的智能化升级。

无问芯穹将持续深化与中国信通院、清华大学等产学研机构的技术协同，也期待着每一位社区开发者的加入共建，共同推动运维智能体技术稳步发展并成为整个行业共享的能力。

如果说目前完成的工作是在回答“什么是一个好用的运维智能体”，那么接下来更想与行业一起探索的是——在真实世界中，这件事情还能走多远。期待AISHPerf-智算运维智能体评测基准可以不止于一款“评测工具”，而是逐步演进为AI集群运维智能体能力的公共基线。不同团队可以在同一套标准下验证能力、对齐认知，甚至推动一些最佳实践的沉淀。