当云运维遇上Agent:阿里云可观测体系的AI原生转身
6月25日,阿里云飞天发布时刻上,阿里云Skills官网正式亮相。这次发布的核心思路很清晰:以Agent作为新的操作主体,重构云能力的统一调用入口。简单来说,就是让AI Agent成为云服务的“超级调度员”。
作为阿里云核心服务之一,可观测体系在这条路上率先迈出了关键一步。云监控CMS、日志服务SLS、应用实时监控ARMS、全域智能运维平台STAROps的核心能力被封装成Agentic Skills——Agent可以直接调用这些可观测能力。首批上线的产品是云监控Skills和STAROps Skills。
具体如何实现?开发者在Qoder这类Agent客户端里,输入一句自然语言指令,Agent就能自主完成数据接入、告警配置、根因诊断,甚至联动研发工具链完成代码修复与发布。整条链路从“人工敲命令”变成了“说话就办”。
首批发布:基于Skill的全栈可观测与智能诊断
发布会上,阿里云智能高级技术专家张城做了一个现场演示,重点展示了云监控Skills和STAROps Skills如何驱动全域可观测与智能诊断。
云监控Skills,简单来说就是把告警配置、数据接入这些高频运维操作封装成Agent可以直接调用的标准指令。云监控本身支持上百种云产品,覆盖移动端、小程序、多语言应用、大模型、Agent等多端全栈场景的数据接入。现在这些能力都可以通过自然语言被Agent调用,使用门槛大幅降低。
STAROps Skills则更进一步,把健康度诊断与根因定位能力开放给Agent客户端调用,支持持续对话与多轮追问。也就是说,你可以像跟一位资深运维专家聊天一样,不断追问“为什么”。

这套Skills体系为企业提供了一条平滑过渡到Agentic Ops的路径——既可以在现有工作流里嵌入AI提效,也可以为关键业务构建Agent原生的诊断模式。具体来看有四个关键点:
全栈数据覆盖:云监控一站式接入云产品、移动端、小程序、多语言应用、大模型、Agent等全栈对象的指标、链路、日志、事件数据。覆盖面非常广,能有效避免数据孤岛问题。
运维数字孪生:UModel对采集到的数据做语义化建模,对各类IT资源、业务资源进行本体化建模,打通跨域对象。这相当于构建了一个运维世界的“数字地图”,所有对象之间的关系一目了然。
智能诊断与运维:STAROps基于大模型完成多维数据分析、告警实时诊断与根因推理,能给出可追溯到代码变更的根因结论,并提供恢复建议。不再需要人工翻日志、查代码,AI直接告诉你“哪里出了问题、怎么修复”。
Agent友好:STAROps提供了适合大模型调用的API与CLI;Skills内置参数Schema与多重校验逻辑,确保Agent生成的配置项字段合理,避免误配。这相当于给Agent配了一把“合规钥匙”,不会乱来。
应用实战:AI Native DevOps全链路闭环
作为研发侧的统一入口,Qoder调用云监控Skills、STAROps Skills与云效MCP,加上UModel实现研发域与运维域的跨层数据打通。基于这套架构,从编码到发布再到告警、诊断、修复,形成了一条完整的闭环链路:
编码:开发者在Qoder中编写代码。
发布:Qoder通过云效MCP触发云效平台的代码提交、流水线构建与镜像产出,镜像推送至容器镜像服务,由容器服务(K8s集群)拉起客户应用。
告警:云监控Skills为应用、容器、镜像配置数据接入与告警规则,线上异常即时触发。
诊断:告警触发后,Qoder调用STAROps Skills,借助UModel的跨域关联,从指标异动追溯到Deployment变更、再回到具体的代码发布与提交人,给出结构化根因。整个诊断链条清晰可见。
修复:Qoder直接生成修复代码,通过云效MCP在Codeup上发起Pull Request,自动附带问题背景与根因分析,进入Review流程。开发和运维的边界被彻底打破。

最佳实践:从告警配置到问题修复
告警配置,对开发者来说是高频重复的运维操作之一。以前需要手动写规则、配通知渠道,现在云监控Skills可以在Qoder等Agent客户端里通过一条命令完成安装。只要在Qoder里下一句“为这个集群配置CPU告警”,Agent就会基于Skills自动拆解成告警规则配置、Webhook通知设置等子任务,并由Skills内置的Schema与校验逻辑保障字段配置的合法性。整个过程几乎不需要人工干预。
当线上告警触发时,开发者直接把告警信息输入Qoder,结合STAROps Skills就能快速完成根因诊断,得到初步的根因判断。更有意思的是,因为STAROps具备Agent原生的交互能力,你可以继续追问“这次问题由哪次发布引起”。由于接入了云效DevOps数据,Agent能诊断出具体哪次发布引入了问题、关联的流水线执行情况、发布时间与监控指标变化的关联性,最终给出综合性的根因结论。这已经远远超出了传统告警工具的能力边界。
当所有现象和根因都明确后,Qoder直接修复相关代码,通过云效MCP在Codeup上发起Pull Request;请求中自动附带问题背景、根因分析与修复说明。从“收到告警”到“提交修复代码”,整个过程在一个Agent对话界面里端到端完成,不再需要多人协作、跨平台来回切换。
云监控Skills、STAROpsSkills现已上线阿里云Skills官网,可在Qoder等Agent客户端一键安装。这条“告警-定位-修复-发布”的链路,原本需要运维工程师、开发工程师、平台管理员等多角色协作,现在被压缩到同一个对话流中。可以说,运维效率得到了全面提升,研发和运维之间的协作方式正在被重新定义。
