首页 游戏 软件 资讯 排行榜 专题
首页
系统平台
Prometheus监控系统安装与配置步骤详解

Prometheus监控系统安装与配置步骤详解

热心网友
29
转载
2026-05-17

对于初次接触Prometheus监控系统的用户而言,一个常见的误区是寻找“如何安装Prometheus”的教程。实际上,Prometheus的设计理念与传统软件不同,它无需复杂的安装过程。其核心是一个独立的可执行二进制文件,因此部署的关键步骤在于获取程序包、进行配置并启动服务。所谓的“部署”,本质上是正确配置核心的 prometheus.yml 文件,并确保Prometheus进程能够以可靠、持久化的方式运行。

Linux怎么安装Prometheus监控 Linux时序数据库部署详解

快速验证:先确保核心功能正常

在着手配置systemd服务或调整复杂权限之前,建议采用一个更高效的策略:使用最简化的方式,优先验证Prometheus的核心采集与展示功能是否正常。这有助于快速排除环境问题,避免在错误的配置方向上耗费时间。

  • 获取软件包:从官方GitHub Releases页面下载对应系统架构的最新稳定版本。例如,对于Linux amd64系统,可使用命令:wget https://github.com/prometheus/prometheus/releases/download/v2.47.2/prometheus-2.47.2.linux-amd64.tar.gz
  • 解压并进入目录:执行 tar -xzf prometheus-*.tar.gz && cd prometheus-*/ 进入解压后的工作目录。
  • 直接启动测试:解压目录中已包含一个默认的 prometheus.yml 配置文件,其中配置了Prometheus对自身的监控。直接在终端前台启动:./prometheus --config.file=prometheus.yml --web.listen-address=":9090"
  • 关键验证点:打开浏览器,访问 https://<你的服务器IP地址>:9090,然后导航至 Status → Targets 页面。如果看到 prometheus 这个Job下的实例状态显示为 UP,则表明Prometheus已成功启动并开始采集自身指标数据。

若此步骤失败,90%以上的原因可归结为以下几点:9090端口被占用(可使用 netstat -tunlp | grep :9090 命令检查)、配置文件YAML语法或缩进错误(YAML对格式非常敏感)、或当前运行用户缺乏读取配置文件的权限

Systemd服务报“Permission Denied”错误的根本原因

许多用户倾向于使用systemd来管理Prometheus服务以实现开机自启,但常会遇到启动失败并提示权限拒绝的问题。这通常源于服务运行用户与文件路径权限的不匹配。

一个典型的场景是:用户将Prometheus的二进制文件和配置文件放置在 /root/ 目录或某个个人用户的家目录下,但在systemd服务单元文件中,却指定了以非root的专用用户(例如新建的 prometheus 用户)来运行此服务。该用户显然没有权限访问root用户的目录。

  • 统一部署路径:应将所有运行所需的文件(二进制程序、配置文件、数据存储目录)放置在系统级的公共路径下,例如 /usr/local/prometheus//opt/prometheus/
  • 正确设置权限:使用命令 chown -R prometheus:prometheus /usr/local/prometheus,将整个目录的所有权赋予给 prometheus 用户及其所属用户组。
  • 检查服务文件:仔细核对systemd服务文件(如 prometheus.service)中的 ExecStart= 指令,此处必须填写二进制文件的绝对路径,例如 /usr/local/prometheus/prometheus,而不能仅写 prometheus
  • 注意数据目录权限:如果通过 --storage.tsdb.path 参数指定了自定义的数据存储路径,务必确保该路径的权限也归属于 prometheus 用户。否则,服务可能在首次尝试写入时序数据库时失败并静默退出,给问题排查带来困难。

Targets配置:为何配置localhost:9100却无法采集数据?

这是新手在配置监控目标时最高频遇到的问题。关键在于理解:prometheus.ymlscrape_configs 下的 targets 地址,是从Prometheus服务器自身的网络视角进行解析和访问的。

举例说明:假设你在服务器A上部署了Prometheus,希望监控服务器B上运行的 node_exporter。如果在配置中写成 targets: ['localhost:9100'],那么Prometheus会尝试连接它自己(即A服务器)的9100端口,而非B服务器的。这必然导致采集失败。

  • 正确配置方法:应填写目标服务器的真实IP地址或可在Prometheus服务器上解析的主机名,例如 targets: ['192.168.1.26:9100']
  • 确保网络连通性:确认目标服务器的防火墙规则已放行9100端口(可使用 ufw allow 9100firewall-cmd --add-port=9100/tcp --permanent 等命令)。
  • 两步排查法
    1. 在目标服务器B上执行 curl https://localhost:9100/metrics,确认 node_exporter 服务本身运行正常,能够返回指标数据。
    2. 在Prometheus服务器A上执行 curl https://192.168.1.26:9100/metrics,验证从监控端到被监控端的网络连通性。如果此步骤失败,则问题在于网络或目标服务可达性,而非Prometheus配置本身。
  • 采集间隔生效:注意 scrape_interval 参数默认值为1分钟。修改此配置后,需要重启Prometheus服务才能使新的采集间隔生效。

控制数据增长:TSDB存储目录膨胀过快的解决方案

Prometheus默认会永久保存所有采集到的时序数据,这在生产环境中显然不可行,磁盘空间迟早会被耗尽。控制数据保留周期的关键配置并不在主配置文件 prometheus.yml 中,而是通过Prometheus的启动参数来设定。

  • 核心保留参数:通过添加启动参数 --storage.tsdb.retention.time=30d 来设置数据的保留时长(支持 d(天)、w(周)、y(年)等单位)。这是最常用且推荐的方式。
  • 避免使用废弃参数:切勿使用已被废弃的参数,例如 --storage.local.retention(该参数在v2.0及以上版本中已被移除)。
  • 关于WAL日志:如果启用了预写日志(WAL),其大小主要由内存和写入负载决定,没有直接的配置上限。但只要上述 retention.time 设置合理,过期的WAL文件会在后续的数据块压缩与清理过程中被自动删除。
  • 注意版本差异:执行 prometheus --version 确认你的版本。不同大版本的行为可能存在差异,例如从v3.x版本开始,引入了 --storage.tsdb.retention.size 参数,允许直接限制TSDB占用的磁盘空间大小。

另一个常见的误解是:设置的数据保留时间到期后,Prometheus不会立即执行删除操作。它会等待下一个预定的压缩周期(默认约为2小时)才清理过期数据。因此,在调整保留时间后,如果发现磁盘空间没有立刻释放,请勿认为配置未生效,只需给予系统一定的处理时间即可。

来源:https://www.php.cn/faq/2439254.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Linux进程管理六大核心命令详解从入门到实战解决系统卡慢
业界动态
Linux进程管理六大核心命令详解从入门到实战解决系统卡慢

Linux用久了,总会遇到那么几个让人头疼的瞬间:系统突然卡成幻灯片,却不知道是哪个“元凶”吃光了CPU;一个命令在终端跑得正欢,想干点别的只能再开个窗口;软件卡死点不动,除了重启电脑似乎别无他法……这些问题的根源,都指向同一个核心技能——进程管理。 无论你是日常使用、运维服务,还是排查故障、优化性

热心网友
05.16
Linux清理软件包缓存详细步骤与实用命令
系统平台
Linux清理软件包缓存详细步骤与实用命令

清理软件包缓存是Linux系统维护的常见操作,但不同发行版的命令和策略差异显著,选择不当可能影响系统后续的更新与回滚。一个重要的安全前提是:清理缓存通常不会影响已安装软件的运行。然而,像 apt clean 和 dnf clean all 这样的强力命令会删除所有已下载的安装文件,而 apt aut

热心网友
05.16
Linux查看当前登录用户与踢出非法用户操作指南
系统平台
Linux查看当前登录用户与踢出非法用户操作指南

在Linux服务器安全管理中,处理可疑或非法登录会话是一项关键任务。但在采取任何行动之前,最核心的步骤是什么?是精确识别。管理员必须准确掌握当前登录用户的身份、来源IP以及连接方式。如果这一步出现偏差,后续操作不仅可能无效,更有可能误中断正常用户的合法访问,影响业务连续性。 谈及查看在线用户,许多用

热心网友
05.16
Linux用户密码修改与强制更新过期密码操作指南
系统平台
Linux用户密码修改与强制更新过期密码操作指南

在Linux系统运维与安全管理中,用户密码的有效管理是保障系统安全的基础环节。无论是日常账户维护、合规性检查,还是应对安全事件,熟练掌握密码修改、强制更新及策略检查的多种方法,都能显著提升管理效率与系统安全性。本文将系统梳理几种核心的密码管理技巧,帮助你从容应对各类场景。 普通用户如何修改自身密码:

热心网友
05.16
Nginx配置SSL证书实现HTTPS安全访问教程
系统平台
Nginx配置SSL证书实现HTTPS安全访问教程

要让Nginx成功启用HTTPS,其实就两个硬性条件:一是编译时已经包含了--with-http_ssl_module模块,二是在server配置块里正确指定了证书和私钥的路径。这两者缺一不可,否则要么nginx -t检查通不过,要么运行时直接报400或500错误。 检查 nginx 是否支持 SS

热心网友
05.16

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

ResearchRabbit使用指南:高效发现你真正需要的研究文献
AI
ResearchRabbit使用指南:高效发现你真正需要的研究文献

ResearchRabbit 是一款设计理念独特的学术发现工具,它通过智能算法深度理解您的研究兴趣,并持续优化推荐相关的学术论文。其核心目标是帮助研究人员高效追踪所关注领域的最新动态与前沿进展。一个显著的亮点在于其智能通知机制:系统会主动筛选,仅推送高相关度的论文,对于不确定是否匹配您兴趣的内容则保

热心网友
05.17
Palettable在线配色工具:AI智能推荐配色方案
AI
Palettable在线配色工具:AI智能推荐配色方案

对于设计师和需要专业配色的用户而言,如何快速找到既美观又高效的色彩方案一直是个挑战。如今,借助人工智能技术,一些在线配色工具能够通过分析大众审美趋势,智能推荐最佳配色组合,让整个过程变得直观而高效。 这类工具的操作方法非常简单:打开网站即可直接开始。系统会基于你对多组配色方案的偏好选择进行学习,并实

热心网友
05.17
Wordmetrics内容分析工具使用指南与功能详解
AI
Wordmetrics内容分析工具使用指南与功能详解

在内容创作与SEO优化实践中,选择合适的工具是提升搜索引擎排名的关键一步。本文将深入解析Wordmetrics——一个融合人工智能与自然语言处理技术的智能内容优化平台,其核心功能在于协助用户高效创建与优化网页内容,从而在搜索结果中获得更靠前的位置。 该平台的工作原理十分智能:用户只需输入目标关键词,

热心网友
05.17
Polymarket CLOBv2升级修复幽灵订单问题 开发者需更新抵押合约地址
web3.0
Polymarket CLOBv2升级修复幽灵订单问题 开发者需更新抵押合约地址

Polymarket已完成CLOBv2迁移,修复了影响交易的“幽灵单”问题,并重构了底层订单簿系统以提升性能。平台已修正做市商返利,并将发放约50万美元的流动性奖励。开发者需及时更新抵押适配器合约地址,否则用户后续可能无法正常交易。

热心网友
05.17
Wisio人工智能科学写作助手使用指南
AI
Wisio人工智能科学写作助手使用指南

对于全球科研工作者而言,用非母语的英语进行学术写作是一项普遍挑战。Wisio作为一个由人工智能驱动的科学写作辅助平台,致力于通过多项智能化功能帮助研究者克服语言障碍。它能够提供符合学术规范的个性化文本润色建议,支持将多种语言的内容精准翻译为地道的科学英语,并能即时检索、引用最新的相关文献,从而显著提

热心网友
05.17