Linux文件内容查看命令与文本处理命令详解

时间：2026-06-18 06:46

Linux文件查看命令包括cat、less、tail等，文本处理工具涵盖grep、sed、awk、sort、uniq、wc及diff，可高效完成日志监控、配置替换、数据统计与文件对比等任务。使用tail-f与grep实时过滤错误，sed批量替换需加 bak备份，awk配合管道实现统计排序。注意管道缓冲与uniq排序要求。

知识点简介

在 Linux 运维与系统管理工作中，阅读日志、检查配置、分析数据堪称日常“三大核心任务”。掌握文本处理命令，能让排查问题的效率提升数倍，绝非夸张。从最基础的文件浏览，到功能强大的文本流处理工具，这些命令组合起来如同运维人员的“瑞士军刀”，几乎覆盖所有应用场景。无论你是新手还是老手，系统学习 Linux 文件查看与文本处理命令，都是提升运维效率的关键一步。

Linux文件内容查看与文本处理命令详解

核心命令整理

一、文件内容查看

命令	用途	常用参数
`cat`	查看全文 / 合并文件	`-n` 显示行号 · `-b` 有内容行显示行号 · `-E` 显示行尾 $ · `-T` 显示制表符
`tac`	反向查看（从尾到头）	同 cat
`nl`	带行号显示文件	`-ba` 全行编号 · `-bt` 非空行编号(默认)
`less`	分页查看（推荐⭐）	`g` 首行 · `G` 末行 · `/` 搜索 · `n` 下一个 · `N` 上一个 · `-N` 显示行号
`more`	分页查看（基础版）	`Space` 翻页 · `Enter` 下一行 · `q` 退出
`head`	查看文件头部	`-n 20` 前 20 行 · `-c 100` 前 100 字节
`tail`	查看文件尾部	`-n 20` 后 20 行 · `-f` 实时追加重磅 ⭐ · `--pid=PID` 进程结束自动停

这些基础命令是日常运维中最高频的工具。例如，查看配置文件时使用 cat -n 能快速定位行号；实时追踪日志则首选 tail -f，堪称监控场景的“神兵利器”。而 less 适合浏览大文件，支持搜索与翻页，体验远优于 more。掌握这些文件查看命令，是高效处理文本的第一步。

二、文本搜索与处理

命令	用途	常用参数
`grep`	文本搜索（王牌工具）	`-i` 忽略大小写 · `-v` 反向匹配 · `-r` 递归 · `-l` 仅显示文件名 · `-n` 显示行号 · `-c` 计数 · `-E` 扩展正则 · `-A/B/C` 上下文行
`sed`	流编辑器（替换/删除/插入）	`s/old/new/g` 全局替换 · `/pattern/d` 删除行 · `-i` 原地修改 · `-n p` 只打印匹配行
`awk`	文本分析 & 格式化输出	`'{print $1,$NF}'` 字段提取 · `-F:` 指定分隔符 · `NR` 行号 · `NF` 每行字段数
`sort`	排序	`-n` 按数值 · `-r` 降序 · `-k` 按列 · `-t` 指定分隔符 · `-u` 去重排序
`uniq`	去重 / 统计	`-c` 统计出现次数 · `-d` 仅显示重复行 · `-u` 仅显示唯一行
`wc`	统计行/词/字符	`-l` 行数 · `-w` 单词数 · `-c` 字符数

这一组命令堪称文本处理的“重型武器”。grep 是日志搜索的核心工具，搭配 -E 启用扩展正则，复杂模式也能轻松应对。sed 最经典的是替换操作，生产中建议使用 -i.bak 保留备份。awk 则是文本分析与格式化的利器，处理表格数据或日志分割非常顺手。至于 sort、uniq 和 wc，经常组合使用实现统计排序，是数据分析的常用手段。

三、文本比较

命令	用途	常用参数
`diff`	逐行比较文件差异	`-u` 上下文格式(推荐) · `-i` 忽略大小写 · `-w` 忽略空白 · `-r` 递归比较目录
`comm`	比较两个已排序文件	`-1` 隐藏文件1独有 · `-2` 隐藏文件2独有 · `-3` 隐藏共有

文件对比常用 diff，尤其加上 -u 参数后输出格式一目了然，非常适合确认配置修改前后的差异。comm 要求输入文件必须已排序，适用于对比两个清单（如 IP 列表、用户名单）的异同。

实操示例

场景 1：实时监控 Nginx 错误日志中的 5xx 错误

# 实时追踪错误日志，过滤 5xx 状态码
tail -f /var/log/nginx/access.log | grep --line-buffered ' "5[0-9][0-9] '

这是排查 5xx 错误最经典的组合。注意 grep 后的 --line-buffered 参数，在管道中使用时必须加上，否则可能产生输出延迟，导致实时监控失效。

场景 2：分析访问日志 TOP 10 IP

# 提取 IP → 排序 → 去重计数 → 降序排 → 取前10
awk '{print $1}' /var/log/nginx/access.log | sort | uniq -c | sort -rn | head -10

这条命令虽长但逻辑清晰：先用 awk 提取 IP 列，随后排序、去重计数、按出现次数降序排列，最后取前 10。一条管道即可高效完成统计。

场景 3：批量替换配置文件中的某个值

# 将所有 config 文件中的 placeholder 替换为实际域名（保留备份）
sed -i.bak 's/__DOMAIN__/example.com/g' /etc/app/*.conf

使用 sed -i 批量替换时，强烈建议添加 .bak 后缀。如果不加，一旦替换错误将无法回滚。养成这个好习惯，能避免许多生产事故。

场景 4：查看日志中某个时间范围内的记录

# 从 10:00 到 10:30 的日志
sed -n '/2026-06-11 10:00/,/2026-06-11 10:30/p' app.log

sed 的区间匹配功能在日志排查时非常实用。通过指定起始与结束模式，即可输出中间所有内容，省去手动翻页的麻烦。

场景 5：用 awk 格式化输出进程信息

# 列出占用内存最高的前 5 个进程
ps aux | awk 'NR>1{print $4"t"$11}' | sort -rn | head -5

其中 NR>1 用于跳过标题行，$4 表示内存占用百分比，$11 为进程名。组合后即可生成简洁的内存占用排行榜。

场景 6：对比两个配置文件差异

# 比较生产与预发布环境配置
diff -u /etc/nginx/nginx.conf.prod /etc/nginx/nginx.conf.staging

diff -u 的输出格式清晰如同代码审查：带 + 的行表示新增，带 - 的行表示删除，能快速识别环境配置差异。

常见坑点 / 注意事项

tail -f 大文件性能：对 GB 级日志慎用 tail -f，会持续占用 I/O。建议先用 less 导航到文件尾部，或限制 tail -f -n 50。
grep -v 过度过滤：反向过滤时容易误删重要信息，稳妥做法是先加 -c 查看匹配数量，确认无误后再执行。
sed -i 原地修改无备份：生产环境务必加后缀 -i.bak 保留备份，以便从容回滚。
awk 默认分隔符：默认按空格/Tab 分割，处理 /etc/passwd 这类文件时要显式指定 -F:。
uniq 只去重相邻行：使用 uniq -c 前必须先 sort，否则统计结果完全错误。
管道链的 --line-buffered：管道中 grep 默认有缓冲区，实时场景下务必加 --line-buffered 强制逐行输出，避免数据滞后。