一旦 Airflow 的核心组件发生故障,整个系统就面临停滞的风险。因此,我们必须建立至少一条监控规则:实时检查各个组件是否仍在正常运行。
在多年运维 Airflow 的过程中,我发现仅仅部署 DAG 远远不够,真正的挑战在于如何持续追踪和分析系统的运行状况。
这篇文章是我在学习和实践 Airflow 2.x 后的经验总结,重点探讨两个层面的监控策略:
1. 核心 Airflow 组件的健康状态(包括调度器、元数据库、触发器、执行器和 Web 服务器)
2. DAG 运行状态的监控方法(涉及日志分析、告警机制、SLA 保障和性能优化)
撰写这篇文章的初衷很简单:很多团队在初期容易低估监控的重要性,等到问题集中爆发时往往手忙脚乱。我自己也踩过不少坑,希望用更接地气的方式把经验沉淀下来。
主动监控与抑制式监控
在深入讨论之前,我们需要先厘清两个基础概念:
• 主动监控是指定期探测服务的健康状态,比如调用 /health 接口,一旦发现异常立即触发告警。
