Redis生产环境如何监控持久化状态:使用INFO persistence指令

在Redis的持久化监控中,有一个字段的地位堪称“定海神针”:rdb_bgsa ve_in_progress。它是唯一能实时判断RDB是否正在执行的字段。这里有个常见的理解误区:其他带“bgsa ve”字样的指标,记录的往往是历史信息,并不能反映当前进程的真实状态。
rdb_bgsa ve_in_progress是唯一能实时判断RDB是否正在执行的字段;若其值为1且rdb_current_bgsa ve_time_sec持续增长(如超300秒)而rdb_last_bgsa ve_status未变,说明bgsa ve卡住,常见原因为磁盘满、文件系统只读或SELinux限制。
怎么用INFO persistence判断RDB是否卡住
方法很直接:执行INFO persistence命令,然后重点盯住三个关键字段:rdb_bgsa ve_in_progress、rdb_current_bgsa ve_time_sec和rdb_last_bgsa ve_status。
怎么算“卡住”呢?一个典型的场景是:rdb_bgsa ve_in_progress的值长时间为1,旁边的rdb_current_bgsa ve_time_sec(这次保存已耗时)却在不断攀升,比如超过了300秒,而rdb_last_bgsa ve_status的状态依然是ok或毫无变化。这通常意味着子进程可能卡在了I/O环节——比如磁盘写满了、文件系统日志挂起,或者SELinux策略拒绝了写入。麻烦的是,父进程对此往往感知不到,所以这些字段也不会自动清零报警。
排查时,有几个字段容易让人“掉坑里”:
rdb_last_bgsa ve_time_sec:它只记录上一次成功的耗时,跟当前正在进行的任务毫无关系。rdb_last_sa ve_time:这是一个时间戳,表示最后一次成功保存的时刻,而不是持续时间,千万别用它来计算“这次已经跑了多久”。rdb_last_bgsa ve_status:它仅更新最后一次的结果。也就是说,哪怕当前进程已经卡死,只要没最终报错退出,这个状态就不会变成err。
为什么rdb_bgsa ve_in_progress=1却迟迟不结束
Redis执行BGSA VE的流程是这样的:fork出子进程后,立刻就会把rdb_bgsa ve_in_progress设为1,之后的所有脏活累活就全交给子进程了。一旦这个子进程“卡壳”,父进程这边的标志位就会一直挂着。子进程卡住的常见原因有哪些呢?
- 存储空间问题:磁盘空间不足,或者inode耗尽(记得同时用
df -h和df -i检查)。 - 文件系统只读:运行
mount | grep "ro"看看是不是文件系统被挂载为只读了。 - 内核级错误:留意内核日志,出现
EXT4-fs error或writeback: page writeback failed这类信息,通常意味着底层I/O出了故障。 - SELinux策略限制:如果系统启用了SELinux,其安全策略可能会限制
redis-server的写入权限。可以用ausearch -m a vc -ts recent命令查看近期的拒绝日志。 - 进程内部阻塞:子进程可能卡在
sys_write或do_sync_read这样的系统调用上。这需要root权限,通过查看/proc/(pid是子进程ID)来确认。/stack
INFO persistence中容易被忽略的关键组合
单看一个字段往往意义有限,真正的“玄机”藏在字段的交叉验证里:
- 当
rdb_changes_since_last_sa ve > 0(有数据变更)但rdb_bgsa ve_in_progress = 0(没在保存)时,说明写入发生了,却没触发持久化。这时就得检查是不是配置的sa ve规则(例如sa ve 900 1)条件未满足,或者持久化功能被禁用了。 - 如果
loading = 1(正在加载数据),那么rdb_bgsa ve_in_progress必定为0。因为加载期间Redis会禁止BGSA VE,防止两者冲突。 - 万一看到
aof_rewrite_in_progress = 1和rdb_bgsa ve_in_progress = 1同时出现,那情况就比较罕见了。这意味着两个fork子进程在同时运行,内存压力会急剧增加,很容易招来OOM killer。 rdb_last_cow_size(上次写时复制的大小)如果突然飙升,表明fork之后父进程修改了大量内存页,导致Copy-On-Write的开销剧增,进而使得RDB的写入延迟升高。
说到底,监控的难点往往不在于判断“有没有在保存”,而在于搞清楚“为什么停在那儿不动”。rdb_bgsa ve_in_progress好比一个开关,rdb_current_bgsa ve_time_sec像一块秒表,但秒表自己不会报警。要定位卡点,最终还得依靠外部的线索——磁盘状态、内核日志、SELinux策略——来拼出完整的真相图景。
