AI时代，三大互联网巨头交锋可观测边界？

时间：2025-10-22 18:13

LLM 的推理能力与生成式 AI 的数据理解能力，为可观测技术的演进提供了全新思路。另一方面，可观测技术也在反哺 AI 领域。那么， AI 与可观测技术是如何双向赋能的？AIOps 从实验到生产、从

LLM的推理能力与生成式AI的数据理解能力，为可观测技术的发展提供了全新思路。另一方面，可观测技术也在反哺AI领域。那么，AI与可观测技术是如何实现双向赋能的？AIOps从概念验证到实际落地的发展路径又是怎样的？

近日，InfoQ《极客有约》栏目联合AICon全球人工智能技术大会，特邀阿里云可观测技术架构负责人张城担任主持人，与阿里云算法专家李也博士、字节跳动Dev-Infra观测平台算法负责人董善东博士、小红书可观测团队负责人王亚普共同探讨AI时代可观测技术的新边界。

部分精彩观点如下：

传统可观测技术主要是"看见"，而未来的新一代运维范式有望实现"发现-分析-解决-复盘"的完整闭环。在这个过程中，可观测系统正从单纯的"眼睛"，进化为同时承担"大脑决策"和"手部执行"的多重角色。

只有当我们拥有贴近真实业务场景的评估标准，并在海量实际案例中验证模型表现，确认它在应当承认"不知道"时能坦诚地说"不会"，不编造虚假答案、不生搬硬套，我们才能真正建立对AI系统的信任机制。

"垃圾进，垃圾出"的定律在AI时代不仅依然适用，反而因LLM对数据规模和质量的高度依赖被显著放大。

三到五年内实现"半自治运维"是可行的，部分场景甚至能达成闭环自动化。但要达到完全自治、真正实现所谓的"咖啡式运维"——即在享用咖啡的同时，系统已自动完成各项运维操作——仍有很长的路要走。

以下内容基于直播速记整理，经InfoQ编辑。

完整直播回放可查看：https://www.infoq.cn/video/YOTeVHta0A3Xqq2l4Bbp

张城：在你们看来，AI正在为可观测性带来哪些根本性的、不同于以往的改变？

李也：首先是"AI赋能可观测"。过去我们需要手动编写SQL来提取和分析数据。而现在，只要为大型语言模型提供清晰的上文和标准化的数据结构，它就能出色地自动生成SQL语句、自动完成大盘配置和定时任务。我们内部评估显示，在上下文信息充足的情况下，大模型在此类任务上的准确率可达80%-90%，甚至超过不熟悉SQL的工程师。这意味着数据提取方式已被彻底改变。

在更具探索性的关联分析方面，AI同样能提供有力支持。例如，将复杂的系统界面截图交给大模型进行分析，其效果有时优于初级工程师的分析质量。虽然它目前还无法替代领域专家进行根因分析，但已能够显著提升所有工程师的工作效率。我们将逐步从"供人分析"转向"供AI理解"。未来的关键不再仅仅是美观的可视化呈现，而是如何以结构化的方式组织数据，使其能够高效地被大模型理解与利用。

其次是"可观测反哺AI"。AI系统的出现带来了新的可观测需求。大模型的每次调用都会产生计算成本，因此生成的所有链路追踪数据都会被完整保留，这大幅增加了存储需求。同时，AI系统的分析和诊断也更为复杂。例如，当一个大型模型在工作流执行中出现问题，我们需要能够诊断其原因，并评估其性能。比如，在RAG环节是否检索到正确文档？幻觉是在哪个阶段产生的？这些都对新一代可观测系统提出了更高要求。此外，在大规模GPU集群中实现高效可观测与故障自愈，也带来了新的技术挑战。

董善东：LLM为可观测领域提供了一个通用的"智能底座"，显著改变了传统AIOps的实施方式。过去我们实施AIOps算法往往需要从零开始：明确业务目标、收集清洗数据、再建模训练与调优。而LLM的引入，为我们提供了一个天然的"六七十分"基础能力，使我们能够在具体场景中更快、更好地构建出可用的解决方案原型。正如许多专家所言，LLM相当于为各行各业配备了一名具备通用能力的大学毕业生。而后续的深度优化与业务适配，仍需领域专家结合行业知识完成。

LLM在处理多模态信息理解与融合方面表现出色，其效果提升与反馈机制也更加高效。

关键在于如何有效利用多模态上下文：我们的工作重心转变为如何为LLM提供更全面、高质量的上文信息，而最困难的多源信息融合与理解环节，则由LLM自身承担。以异常检测为例，传统方法往往局限于单一指标，而LLM能够综合分析多维度数据，实现更全面的异常判断。更优质的上下文信息，必将带来更加出色的检测效果。

此外，传统方法中融入人工反馈通常需要重新训练模型，而LLM凭借其强大的文本理解能力，可以快速、灵活地将人工反馈应用于下一次检测任务中。

相较于传统AIOps往往针对单点场景进行优化，LLM的引入使得从告警产生到问题解决的全生命周期管理——包括发现问题、分析原因、处理过程和复盘优化——都成为可能。我们可以在现有可观测数据平台与各类小模型能力的基础上，通过智能体架构将整个运维流程有效串联起来：LLM与领域知识共同构成决策"大脑"，而传统算法则作为"工具手"被智能体调用，让智能体能够逐步处理告警，并与运维人员进行协同工作。未来，它甚至可能像数字化员工一样，承担起SRE的部分职责。

王亚普：AI训练过程中出现问题时，往往表现为整个系统性能的"卡顿"，这使得系统复杂度和稳定性显著增加。

过去，可观测技术主要依赖规则和阈值告警来处理已知问题；而AI的引入让系统具备了一定的语义理解和推理能力，可以对未知问题进行分析和验证。而在以往的工作场景中，人工排查一个性能劣化问题可能需要数小时。而借助AI，我们可以自动分析指标、链路和变更之间的关联，从而从被动响应转向主动可观测，甚至进一步实现推理与洞察能力。

过去，运维或研发人员需要掌握复杂的查询语言，并理解监控平台的各种概念。而现在，AI使得可观测技术变得"对话式"，工程师只需输入诸如"帮我查一下最近日志成功率"这样的自然语言请求，大模型即可完成分析。历史上，可观测平台往往是支撑性系统，难以满足各业务线的定制化需求。但有了AI，自助服务和个性化编排成为可能。可观测平台可以聚焦于底层能力与抽象输出，业务团队则能自由组合工具，实现"千人千面"的个性化运维体验。

第三个层面是形成智能决策的闭环。

张城：对于一个AI智能体，我们到底该如何衡量它的"智能"程度？是实验室评估集的分数更重要，还是它在复杂线上环境中解决实际问题的能力更关键？

董善东：衡量一个AI智能体的智能水平，应从通用能力和专属能力两方面来考量。对于通用化能力，现在无论是对LLM基准测试的MMLU、MATH等指标，还是专门针对智能体能力评估的标准——如AgentBench、SWE-bench等——都很好地度量了LLM在通用理解、推理、规划等方面的能力。

而对于专属能力，这里则更需要考虑它解决实际问题的能力。这一点在可观测领域尤为显著。当然，AIOps社区已经围绕可观测领域构建了一些测试集以及对应的数据集，这些数据集可以作为参考。但是在各个企业内部，我们看到的是有更多相对复杂、需求也不一定是标准化的问题，这对于AI智能体的实战能力要求也是更高的。

以根因分析为例，我个人简单将其分为三个级别，供大家参考：

L1级别：单点增强。在某个具体问题上的分析流程，仍是人工主导的流程，但是AI智能体可以协助完成某些环节的分析工作。

L2级别：问题自主解决。RCA过程实现完全Agent化——当某个预设指标出现异常后，AI智能体能够按照标准作业程序进行规划、执行，直至完成定位。

L3级别：自主学习。在人类设定的任务目标和业务知识基础上，它可以自行查阅团队内部的技术文档和代码实现，进行知识提炼和学习。当用户询问某个故障排查流程时，它也能自主完成评估并输出正确结果。

李也：实战能力更为重要，评估应尽量贴近真实业务场景。目前一些大模型排行榜存在"刷榜"现象。以SWE Bench Verified为例，其仅包含约500道题目。如果让算法工程师每天去人工标注这些案例，持续一年，也几乎不可能"背熟"整个数据集。这种通过人为拟合标准答案获得高分的方式，往往无法真实反映模型在实战中的表现水平。

类似问题在其他领域同样存在。例如在微服务场景中，实验室基准测试通常只涉及十来个服务，而真实生产系统可能有上百个服务，且每个服务都包含大量操作，复杂度完全不在一个量级。实验室中通过混入少量已知故障点进行测试，但在现实中却可能遇到千奇百怪的异常情况。如果仅用已知问题去验证模型，算法表现可能并不优于规则系统，无法体现大模型在未知场景中的泛化能力。

评估任务难度是关键。不能让"小学生去答高考题"。同样，如果让大模型直接处理L3级别的复杂任务，可能全部失败，但这并不代表AI完全无用，而是说明它目前尚不适合处理此类高阶场景。相反，在将自然语言查询转换为SQL或PromQL等任务中，大模型已经能够可靠地将查询意图转换为正确语法。

张城：大模型的出现，是否意味着我们过去所依赖的传统算法遇到了瓶颈？大模型在处理可观测数据时，具体带来了哪些"质"的差异？

王亚普：传统算法虽然在某些特定场

来源：https://36kr.com/p/3520099676625799

上一篇OpenAI布局投行业务：内部项目与战略目标全解析 下一篇OpenAI推出全新浏览器：让一让，Chrome

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。