游乐游手机版
首页/科技数码/文章详情

AI时代,三大互联网巨头交锋可观测边界?

时间:2025-10-22 18:13
LLM 的推理能力与生成式 AI 的数据理解能力,为可观测技术的演进提供了全新思路。另一方面,可观测技术也在反哺 AI 领域。那么, AI 与可观测技术是如何双向赋能的?AIOps 从实验到生产、从

LLM的推理能力与生成式AI的数据理解能力,为可观测技术的发展提供了全新思路。另一方面,可观测技术也在反哺AI领域。那么,AI与可观测技术是如何实现双向赋能的?AIOps从概念验证到实际落地的发展路径又是怎样的?

近日,InfoQ《极客有约》栏目联合AICon全球人工智能技术大会,特邀阿里云可观测技术架构负责人张城担任主持人,与阿里云算法专家李也博士、字节跳动Dev-Infra观测平台算法负责人董善东博士、小红书可观测团队负责人王亚普共同探讨AI时代可观测技术的新边界。

部分精彩观点如下:

传统可观测技术主要是"看见",而未来的新一代运维范式有望实现"发现-分析-解决-复盘"的完整闭环。在这个过程中,可观测系统正从单纯的"眼睛",进化为同时承担"大脑决策"和"手部执行"的多重角色。

只有当我们拥有贴近真实业务场景的评估标准,并在海量实际案例中验证模型表现,确认它在应当承认"不知道"时能坦诚地说"不会",不编造虚假答案、不生搬硬套,我们才能真正建立对AI系统的信任机制。

"垃圾进,垃圾出"的定律在AI时代不仅依然适用,反而因LLM对数据规模和质量的高度依赖被显著放大。

三到五年内实现"半自治运维"是可行的,部分场景甚至能达成闭环自动化。但要达到完全自治、真正实现所谓的"咖啡式运维"——即在享用咖啡的同时,系统已自动完成各项运维操作——仍有很长的路要走。

以下内容基于直播速记整理,经InfoQ编辑。

完整直播回放可查看:https://www.infoq.cn/video/YOTeVHta0A3Xqq2l4Bbp

张城:在你们看来,AI正在为可观测性带来哪些根本性的、不同于以往的改变?

李也:首先是"AI赋能可观测"。过去我们需要手动编写SQL来提取和分析数据。而现在,只要为大型语言模型提供清晰的上文和标准化的数据结构,它就能出色地自动生成SQL语句、自动完成大盘配置和定时任务。我们内部评估显示,在上下文信息充足的情况下,大模型在此类任务上的准确率可达80%-90%,甚至超过不熟悉SQL的工程师。这意味着数据提取方式已被彻底改变。

在更具探索性的关联分析方面,AI同样能提供有力支持。例如,将复杂的系统界面截图交给大模型进行分析,其效果有时优于初级工程师的分析质量。虽然它目前还无法替代领域专家进行根因分析,但已能够显著提升所有工程师的工作效率。我们将逐步从"供人分析"转向"供AI理解"。未来的关键不再仅仅是美观的可视化呈现,而是如何以结构化的方式组织数据,使其能够高效地被大模型理解与利用。

其次是"可观测反哺AI"。AI系统的出现带来了新的可观测需求。大模型的每次调用都会产生计算成本,因此生成的所有链路追踪数据都会被完整保留,这大幅增加了存储需求。同时,AI系统的分析和诊断也更为复杂。例如,当一个大型模型在工作流执行中出现问题,我们需要能够诊断其原因,并评估其性能。比如,在RAG环节是否检索到正确文档?幻觉是在哪个阶段产生的?这些都对新一代可观测系统提出了更高要求。此外,在大规模GPU集群中实现高效可观测与故障自愈,也带来了新的技术挑战。

董善东:LLM为可观测领域提供了一个通用的"智能底座",显著改变了传统AIOps的实施方式。过去我们实施AIOps算法往往需要从零开始:明确业务目标、收集清洗数据、再建模训练与调优。而LLM的引入,为我们提供了一个天然的"六七十分"基础能力,使我们能够在具体场景中更快、更好地构建出可用的解决方案原型。正如许多专家所言,LLM相当于为各行各业配备了一名具备通用能力的大学毕业生。而后续的深度优化与业务适配,仍需领域专家结合行业知识完成。

LLM在处理多模态信息理解与融合方面表现出色,其效果提升与反馈机制也更加高效。

关键在于如何有效利用多模态上下文:我们的工作重心转变为如何为LLM提供更全面、高质量的上文信息,而最困难的多源信息融合与理解环节,则由LLM自身承担。以异常检测为例,传统方法往往局限于单一指标,而LLM能够综合分析多维度数据,实现更全面的异常判断。更优质的上下文信息,必将带来更加出色的检测效果。

此外,传统方法中融入人工反馈通常需要重新训练模型,而LLM凭借其强大的文本理解能力,可以快速、灵活地将人工反馈应用于下一次检测任务中。

相较于传统AIOps往往针对单点场景进行优化,LLM的引入使得从告警产生到问题解决的全生命周期管理——包括发现问题、分析原因、处理过程和复盘优化——都成为可能。我们可以在现有可观测数据平台与各类小模型能力的基础上,通过智能体架构将整个运维流程有效串联起来:LLM与领域知识共同构成决策"大脑",而传统算法则作为"工具手"被智能体调用,让智能体能够逐步处理告警,并与运维人员进行协同工作。未来,它甚至可能像数字化员工一样,承担起SRE的部分职责。

王亚普:AI训练过程中出现问题时,往往表现为整个系统性能的"卡顿",这使得系统复杂度和稳定性显著增加。

过去,可观测技术主要依赖规则和阈值告警来处理已知问题;而AI的引入让系统具备了一定的语义理解和推理能力,可以对未知问题进行分析和验证。而在以往的工作场景中,人工排查一个性能劣化问题可能需要数小时。而借助AI,我们可以自动分析指标、链路和变更之间的关联,从而从被动响应转向主动可观测,甚至进一步实现推理与洞察能力。

过去,运维或研发人员需要掌握复杂的查询语言,并理解监控平台的各种概念。而现在,AI使得可观测技术变得"对话式",工程师只需输入诸如"帮我查一下最近日志成功率"这样的自然语言请求,大模型即可完成分析。历史上,可观测平台往往是支撑性系统,难以满足各业务线的定制化需求。但有了AI,自助服务和个性化编排成为可能。可观测平台可以聚焦于底层能力与抽象输出,业务团队则能自由组合工具,实现"千人千面"的个性化运维体验。

第三个层面是形成智能决策的闭环。

张城:对于一个AI智能体,我们到底该如何衡量它的"智能"程度?是实验室评估集的分数更重要,还是它在复杂线上环境中解决实际问题的能力更关键?

董善东:衡量一个AI智能体的智能水平,应从通用能力和专属能力两方面来考量。对于通用化能力,现在无论是对LLM基准测试的MMLU、MATH等指标,还是专门针对智能体能力评估的标准——如AgentBench、SWE-bench等——都很好地度量了LLM在通用理解、推理、规划等方面的能力。

而对于专属能力,这里则更需要考虑它解决实际问题的能力。这一点在可观测领域尤为显著。当然,AIOps社区已经围绕可观测领域构建了一些测试集以及对应的数据集,这些数据集可以作为参考。但是在各个企业内部,我们看到的是有更多相对复杂、需求也不一定是标准化的问题,这对于AI智能体的实战能力要求也是更高的。

以根因分析为例,我个人简单将其分为三个级别,供大家参考:

L1级别:单点增强。在某个具体问题上的分析流程,仍是人工主导的流程,但是AI智能体可以协助完成某些环节的分析工作。

L2级别:问题自主解决。RCA过程实现完全Agent化——当某个预设指标出现异常后,AI智能体能够按照标准作业程序进行规划、执行,直至完成定位。

L3级别:自主学习。在人类设定的任务目标和业务知识基础上,它可以自行查阅团队内部的技术文档和代码实现,进行知识提炼和学习。当用户询问某个故障排查流程时,它也能自主完成评估并输出正确结果。

李也:实战能力更为重要,评估应尽量贴近真实业务场景。目前一些大模型排行榜存在"刷榜"现象。以SWE Bench Verified为例,其仅包含约500道题目。如果让算法工程师每天去人工标注这些案例,持续一年,也几乎不可能"背熟"整个数据集。这种通过人为拟合标准答案获得高分的方式,往往无法真实反映模型在实战中的表现水平。

类似问题在其他领域同样存在。例如在微服务场景中,实验室基准测试通常只涉及十来个服务,而真实生产系统可能有上百个服务,且每个服务都包含大量操作,复杂度完全不在一个量级。实验室中通过混入少量已知故障点进行测试,但在现实中却可能遇到千奇百怪的异常情况。如果仅用已知问题去验证模型,算法表现可能并不优于规则系统,无法体现大模型在未知场景中的泛化能力。

评估任务难度是关键。不能让"小学生去答高考题"。同样,如果让大模型直接处理L3级别的复杂任务,可能全部失败,但这并不代表AI完全无用,而是说明它目前尚不适合处理此类高阶场景。相反,在将自然语言查询转换为SQL或PromQL等任务中,大模型已经能够可靠地将查询意图转换为正确语法。

张城:大模型的出现,是否意味着我们过去所依赖的传统算法遇到了瓶颈?大模型在处理可观测数据时,具体带来了哪些"质"的差异?

王亚普:传统算法虽然在某些特定场

来源:https://36kr.com/p/3520099676625799
上一篇OpenAI布局投行业务:内部项目与战略目标全解析 下一篇OpenAI推出全新浏览器:让一让,Chrome
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
OpenClaw手机App上线,结果翻车了
科技数码 · 2026-07-01

OpenClaw手机App上线,结果翻车了

OpenClaw 官方宣布,已正式推出 iOS 和 Android 原生移动 App,用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接:把 Agent 放进口袋里,让用户可以在移动端处理频道消息、任务和回复。从功能上看,OpenClaw 移动端并

优必选CEO周剑:家庭机器人生态核心投入过半精力
科技数码 · 2026-07-01

优必选CEO周剑:家庭机器人生态核心投入过半精力

先说几个核心判断:优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上,直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进,现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景,另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛
科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛

6月30日,申银万国在光连接系列研报中重点指出,MPO光连接器领域的投资机会值得高度关注。通俗来说,随着AI算力集群持续扩张,光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件,如今它直接决定着链路插损、可

龙岗AR实景剧本游内测体验短板有效破解之道
科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上,区级部门一次性推出了7个AI“龙搭子”。其中,名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解,依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”,已在今年五一假期发布了内测版本。经过一个月市场验证后,该项目正式启动面向全社会的

南下资金6月30日净买入中芯国际与建滔积层板
科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日,南下资金持续大举买入港股,单日净流入金额高达58 95亿港元。接下来,我们直接盘点哪些个股获得资金青睐、哪些遭到减持: 净买入方面,中芯国际领跑全场,单日吸金19 33亿港元;建滔积层板紧随其后,净买入10 59亿港元;腾讯控股获得7 65亿港元净流入;智谱(02513 HK)也有6 5