Linux页缓存回收:那个不存在的"阈值开关"怎么调?
很多做系统调优的朋友,刚接触Linux内存管理时,都会下意识地找这么一个东西:有没有一个参数,直接告诉我"页缓存占用到多少就开始回收"?答案是——没有。内核压根没提供类似 pagecache_reclaim_threshold 这样的单一控制项。但这并不意味着你拿它没办法。真正管用的入口,是 min_free_kbytes 这条参数,以及它背后那一整套水平线推导逻辑。

直接说吧:Linux没有独立的"页缓存回收阈值"开关,真正决定回收启动时机的,是内存水平线(WMARK_MIN、WMARK_LOW、WMARK_HIGH),而它们又是由 min_free_kbytes 推导出来的。把这个值调大,就能让kswapd提前干活——按物理内存的1%–3%设,再配合 dirty_ratio,就能有效防止写密集场景卡死。
为什么你不能直接设一个"页缓存回收阈值"
这不是内核设计者的疏忽。页面回收本来就不是由一个固定阈值触发的,它取决于实时的内存压力。而内核判断压力大小靠的是三个水平线:WMARK_MIN、WMARK_LOW、WMARK_HIGH。用户没法直接写这仨值,它们是由 min_free_kbytes 算出来的运行时变量。
- 调高
min_free_kbytes,所有水平线同步抬高——说白了就是让回收提前启动 - 用
drop_caches或者改vfs_cache_pressure,只能影响回收倾向或对象类型,改不了启动时机 vm.vfs_cache_pressure控制的是inode/dentry缓存和page cache的回收优先级,不是"内存还剩多少才开始回收"
所以,与其纠结那个不存在的开关,不如直接管好水平线。
怎么设置真正起作用的回收启动点
核心思路很简单:调大 min_free_kbytes,让内核更早唤醒kswapd来回收内存。这个值的单位是KB,通常情况下,按物理内存的1%到3%来设比较稳妥。比如64GB内存,设成1024000(约1GB)就很合理。
- 先看一眼当前值:
cat /proc/sys/vm/min_free_kbytes - 临时调一下试效果:
echo 1024000 > /proc/sys/vm/min_free_kbytes - 想持久化?在
/etc/sysctl.conf里加一行vm.min_free_kbytes = 1024000,然后sysctl -p - 验证改动有没有生效:
cat /proc/zoneinfo | grep -E "(watermark|free)",看看各zone的pages_min有没有上升
搭配 dirty_ratio 才是完整方案
如果你是纯读场景,比如CDN缓存服务,光调 min_free_kbytes 就够了。但一旦有持续写入,脏页堆积分分钟把内存压垮。这时候还得同步约束脏页上限:
vm.dirty_background_ratio设到5%到10%,这是后台回写的启动点,避免脏页静默堆积vm.dirty_ratio设到15%到20%,这是前台阻塞点,防止进程被突然挂起- 这两个必须同时设,而且
dirty_ratio一定要大于dirty_background_ratio,否则后面那个等于没设 - 特别注意:如果你设了
vm.dirty_background_bytes或vm.dirty_bytes,对应的ratio参数会被自动忽略
容易踩的坑
很多人在调完参数后发现效果不对劲,原因往往出在一个细节上:回收行为最终取决于每个内存zone(DMA、Normal、HighMem)的独立水平线,而不是全局内存总量。在NUMA架构或者多网卡设备较多的机器上,min_free_kbytes 调得太大,可能出现某些zone的空闲内存远超预期,白白浪费可用内存;调得太小呢,kswapd又长期高频扫描,CPU开销飙升。最好的办法,就是拿 cat /proc/zoneinfo 逐个看看各zone的 pages_min 和当前 free_pages,确认回收确实发生在了你期望的时机上。别光看全局数据,那会骗人。
