排查服务器磁盘空间告急,是每个运维工程师的必修课。传统的 du -sh * 命令组合固然经典,但在面对海量文件、复杂挂载或特殊文件类型时,不仅速度慢,结果还可能“失真”。这时,一个更高效、更精准的工具就该登场了——ncdu(NCurses Disk Usage)。它直接统计磁盘块占用,不受稀疏文件、硬链接或挂载点干扰,让真正的“空间杀手”无所遁形。
直接运行 ncdu 进行扫描,其速度远超手动拼接 du 命令。关键在于,它统计的是文件实际占用的物理磁盘块(disk blocks),而非文件在逻辑上显示的大小(apparent size)。这意味着,那些看似庞大实则占用极少的稀疏文件(sparse files),或者因硬链接而被重复计算的空间,都不会再干扰你的判断。
为什么 ncdu 显示的大小和 du -sh 不一致
这是新手最常困惑的地方。其实,ncdu 默认界面底部显示的两行信息已经说明了一切:
Total disk usage: 42.3 GiBApparent size: 41.9 GiB
第一行“Total disk usage”才是磁盘的真实占用,这与 du -sh(不加 --apparent-size 参数时)的结果是一致的。而第二行“Apparent size”是文件的逻辑大小,也就是你用 ls -lh 或 stat 命令看到的大小。
两者如果出现显著差距,通常指向几种情况:存在大量稀疏文件(例如某些数据库文件、虚拟机磁盘);有文件已被删除但仍有进程在占用(在 /proc/*/fd/ 下可见其“幽灵”);或者目录中存在硬链接,导致逻辑大小被重复统计。记住,你真正该关心的是第一行,那才是吃掉你磁盘空间的“真凶”。
扫描时必须加 -x 参数的三种情况
-x 参数是 ncdu 的“定海神针”,它告诉工具不要跨越文件系统边界进行扫描。不加它,很容易误入其他挂载点,导致扫描结果失真,甚至进程卡死。下面三种场景务必加上:
- 清理根分区时:运行
sudo ncdu -x /。这能避免工具跳进/boot、/proc、/sys这类独立的或伪文件系统,确保扫描范围锁定在你想要检查的根文件系统内。 - 排查 /var 空间暴增时:使用
sudo ncdu -x /var。像/var/lib/docker下的 overlay2 存储驱动目录,很可能是一个独立的卷或挂载点。不加-x,ncdu可能会将其当作普通目录反复遍历,既耗时又可能引发问题。 - 在容器宿主机上检查用户家目录时:执行
ncdu -x ~。现代桌面环境中,家目录下可能存在像.local/share/flatpak这样的绑定挂载点,加上-x可以防止意外扫描进入,确保结果准确反映当前家目录所在文件系统的使用情况。
交互界面里删错文件怎么办
ncdu 的交互式界面中,按 d 键可以直接删除文件或目录,这是一个强大但危险的功能。因为它执行的是真实的 unlink 系统调用,没有回收站可言。不过,工具本身设计了两道安全防线:
第一道是确认提示:按下 d 后,界面底部会弹出确认框,必须输入 y 并按回车才会执行删除。
第二道是系统保护:如果要删除的文件正被某个进程占用(比如正在被 tail -f 追踪的日志),删除操作会失败,并在界面右下角显示 Cannot remove: Device or resource busy 的错误信息。
但要注意,有些情况它可能“静默”处理得不彻底。例如,直接删除 /var/log/journal 下的系统日志文件,虽然文件消失了,但日志索引可能残留,空间并未完全释放。更稳妥的做法是先停止相关服务:sudo systemctl stop systemd-journald,然后在 ncdu 中执行删除,完成后再启动服务:sudo systemctl start systemd-journald。
扫描卡住或内存爆满时的应急操作
当面对一个数十TB的NAS挂载点,或者系统本身内存紧张时,ncdu 的扫描过程可能会变得缓慢甚至耗尽资源。别慌,有几个应急技巧:
- 随时可以按
Ctrl+C中断扫描。ncdu会立即进入已扫描完成部分的交互界面,你至少可以查看当前已发现的前几十个最大项目,这通常已经能定位到主要问题了。 - 使用
--exclude参数预先排除已知的、无需检查的目录,可以大幅提升扫描效率。例如:ncdu --exclude '/home/*/.cache' --exclude '/tmp' /home。 - 对于需要反复检查的目录,可以预生成扫描快照:
ncdu -o ~/ncdu-root.dat -x /。这个命令会将扫描结果输出到文件,之后只需运行ncdu -f ~/ncdu-root.dat,就能瞬间加载之前的扫描结果进行分析,无需重新扫描。
最后,必须清醒认识到,ncdu 再强大,也只能统计文件系统上可见的文件占用。真正的“幽灵占用”——那些已被删除(unlinked)但仍被进程打开的文件,是不会出现在 ncdu 的列表里的。这类情况会导致“可用空间”与统计结果对不上。此时,就需要借助 lsof +L1 这样的命令,到 /proc 文件系统层面去追踪并释放这些被进程占用的磁盘空间了。工具虽好,但理解其原理和边界,才能运用自如。
