知识点简介
在 Linux 运维与系统管理工作中,阅读日志、检查配置、分析数据堪称日常“三大核心任务”。掌握文本处理命令,能让排查问题的效率提升数倍,绝非夸张。从最基础的文件浏览,到功能强大的文本流处理工具,这些命令组合起来如同运维人员的“瑞士军刀”,几乎覆盖所有应用场景。无论你是新手还是老手,系统学习 Linux 文件查看与文本处理命令,都是提升运维效率的关键一步。

核心命令整理
一、文件内容查看
| 命令 | 用途 | 常用参数 |
|---|---|---|
cat | 查看全文 / 合并文件 | -n 显示行号 · -b 有内容行显示行号 · -E 显示行尾 $ · -T 显示制表符 |
tac | 反向查看(从尾到头) | 同 cat |
nl | 带行号显示文件 | -ba 全行编号 · -bt 非空行编号(默认) |
less | 分页查看(推荐⭐) | g 首行 · G 末行 · / 搜索 · n 下一个 · N 上一个 · -N 显示行号 |
more | 分页查看(基础版) | Space 翻页 · Enter 下一行 · q 退出 |
head | 查看文件头部 | -n 20 前 20 行 · -c 100 前 100 字节 |
tail | 查看文件尾部 | -n 20 后 20 行 · -f 实时追加重磅 ⭐ · --pid=PID 进程结束自动停 |
这些基础命令是日常运维中最高频的工具。例如,查看配置文件时使用 cat -n 能快速定位行号;实时追踪日志则首选 tail -f,堪称监控场景的“神兵利器”。而 less 适合浏览大文件,支持搜索与翻页,体验远优于 more。掌握这些文件查看命令,是高效处理文本的第一步。
二、文本搜索与处理
| 命令 | 用途 | 常用参数 |
|---|---|---|
grep | 文本搜索(王牌工具) | -i 忽略大小写 · -v 反向匹配 · -r 递归 · -l 仅显示文件名 · -n 显示行号 · -c 计数 · -E 扩展正则 · -A/B/C 上下文行 |
sed | 流编辑器(替换/删除/插入) | s/old/new/g 全局替换 · /pattern/d 删除行 · -i 原地修改 · -n p 只打印匹配行 |
awk | 文本分析 & 格式化输出 | '{print $1,$NF}' 字段提取 · -F: 指定分隔符 · NR 行号 · NF 每行字段数 |
sort | 排序 | -n 按数值 · -r 降序 · -k 按列 · -t 指定分隔符 · -u 去重排序 |
uniq | 去重 / 统计 | -c 统计出现次数 · -d 仅显示重复行 · -u 仅显示唯一行 |
wc | 统计行/词/字符 | -l 行数 · -w 单词数 · -c 字符数 |
这一组命令堪称文本处理的“重型武器”。grep 是日志搜索的核心工具,搭配 -E 启用扩展正则,复杂模式也能轻松应对。sed 最经典的是替换操作,生产中建议使用 -i.bak 保留备份。awk 则是文本分析与格式化的利器,处理表格数据或日志分割非常顺手。至于 sort、uniq 和 wc,经常组合使用实现统计排序,是数据分析的常用手段。
三、文本比较
| 命令 | 用途 | 常用参数 |
|---|---|---|
diff | 逐行比较文件差异 | -u 上下文格式(推荐) · -i 忽略大小写 · -w 忽略空白 · -r 递归比较目录 |
comm | 比较两个已排序文件 | -1 隐藏文件1独有 · -2 隐藏文件2独有 · -3 隐藏共有 |
文件对比常用 diff,尤其加上 -u 参数后输出格式一目了然,非常适合确认配置修改前后的差异。comm 要求输入文件必须已排序,适用于对比两个清单(如 IP 列表、用户名单)的异同。
实操示例
场景 1:实时监控 Nginx 错误日志中的 5xx 错误
# 实时追踪错误日志,过滤 5xx 状态码 tail -f /var/log/nginx/access.log | grep --line-buffered ' "5[0-9][0-9] '
这是排查 5xx 错误最经典的组合。注意 grep 后的 --line-buffered 参数,在管道中使用时必须加上,否则可能产生输出延迟,导致实时监控失效。
场景 2:分析访问日志 TOP 10 IP
# 提取 IP → 排序 → 去重计数 → 降序排 → 取前10
awk '{print $1}' /var/log/nginx/access.log | sort | uniq -c | sort -rn | head -10
这条命令虽长但逻辑清晰:先用 awk 提取 IP 列,随后排序、去重计数、按出现次数降序排列,最后取前 10。一条管道即可高效完成统计。
场景 3:批量替换配置文件中的某个值
# 将所有 config 文件中的 placeholder 替换为实际域名(保留备份) sed -i.bak 's/__DOMAIN__/example.com/g' /etc/app/*.conf
使用 sed -i 批量替换时,强烈建议添加 .bak 后缀。如果不加,一旦替换错误将无法回滚。养成这个好习惯,能避免许多生产事故。
场景 4:查看日志中某个时间范围内的记录
# 从 10:00 到 10:30 的日志 sed -n '/2026-06-11 10:00/,/2026-06-11 10:30/p' app.log
sed 的区间匹配功能在日志排查时非常实用。通过指定起始与结束模式,即可输出中间所有内容,省去手动翻页的麻烦。
场景 5:用 awk 格式化输出进程信息
# 列出占用内存最高的前 5 个进程
ps aux | awk 'NR>1{print $4"t"$11}' | sort -rn | head -5
其中 NR>1 用于跳过标题行,$4 表示内存占用百分比,$11 为进程名。组合后即可生成简洁的内存占用排行榜。
场景 6:对比两个配置文件差异
# 比较生产与预发布环境配置 diff -u /etc/nginx/nginx.conf.prod /etc/nginx/nginx.conf.staging
diff -u 的输出格式清晰如同代码审查:带 + 的行表示新增,带 - 的行表示删除,能快速识别环境配置差异。
常见坑点 / 注意事项
tail -f大文件性能:对 GB 级日志慎用tail -f,会持续占用 I/O。建议先用less导航到文件尾部,或限制tail -f -n 50。grep -v过度过滤:反向过滤时容易误删重要信息,稳妥做法是先加-c查看匹配数量,确认无误后再执行。sed -i原地修改无备份:生产环境务必加后缀-i.bak保留备份,以便从容回滚。awk默认分隔符:默认按空格/Tab 分割,处理/etc/passwd这类文件时要显式指定-F:。uniq只去重相邻行:使用uniq -c前必须先sort,否则统计结果完全错误。- 管道链的
--line-buffered:管道中grep默认有缓冲区,实时场景下务必加--line-buffered强制逐行输出,避免数据滞后。
知识不记则废,命令不用则生。建议在测试机上逐条敲一遍,形成肌肉记忆。
