2708 words

14 minutes

grep,sed,awk详解

2026-05-17

技术笔记

Linux

/

Shell

/

文本处理

grep、sed、awk 详解：Unix 文本处理三剑客#

在 Unix/Linux 系统中，grep、sed、awk 被誉为”文本处理三剑客”。这三个工具虽然诞生于上世纪 70 年代，但至今仍是系统管理员、开发者和运维工程师的必备利器。它们组合使用可以完成几乎所有文本处理任务。本文将详细介绍这三个工具的核心概念、常用命令和实战技巧。

grep：模式搜索工具#

grep（Global Regular Expression Print）是最常用的文本搜索工具，它能够在文件中搜索符合指定模式的行，并将匹配的行输出到标准输出。

基本用法#

1
# 在文件中搜索包含 "error" 的行
2
grep "error" logfile.txt
3

4
# 搜索多个文件
5
grep "TODO" *.py *.js
6

7
# 递归搜索目录
8
grep -r "function" /path/to/code
9

10
# 显示行号
11
grep -n "import" main.py

常用选项#

grep 提供了丰富的命令行选项来控制搜索行为：

1
# -i：忽略大小写
2
grep -i "error" logfile.txt
3

4
# -v：反向匹配（不包含模式的行）
5
grep -v "^#" config.conf
6

7
# -c：只显示匹配行数
8
grep -c "print" script.py
9

10
# -l：只显示包含匹配内容的文件名
11
grep -l "TODO" *.py
12

13
# -r：递归搜索目录
14
grep -r "database" /path/to/project
15

16
# -n：显示行号
17
grep -n "def" main.py
18

19
# -A、-B、-C：显示上下文
20
grep -A 3 "error" logfile.txt    # 显示匹配行后 3 行
21
grep -B 3 "error" logfile.txt    # 显示匹配行前 3 行
22
grep -C 3 "error" logfile.txt    # 显示匹配行前后各 3 行

正则表达式支持#

grep 支持两种正则表达式风格：

1
# 基本正则表达式（BRE）- 默认
2
grep "file\.txt" files.txt
3

4
# 扩展正则表达式（ERE）- 使用 -E 或 egrep
5
grep -E "error|warning|info" logfile.txt
6

7
# 常用正则表达式元字符
8
grep "^[0-9]" data.txt           # 以数字开头
9
grep "test$" result.txt          # 以 test 结尾
10
grep "a\{3,5\}" pattern.txt      # 匹配 3-5 个 a（BRE）
11
grep -E "a{3,5}" pattern.txt     # 匹配 3-5 个 a（ERE）
12
grep "[A-Z][a-z]+" names.txt     # 大写字母开头后跟小写字母

实用示例#

1
# 查找进程
2
ps aux | grep python
3

4
# 查找空日志文件
5
find . -type f -empty | grep "\.log$"
6

7
# 统计代码行数
8
grep -c "" *.py | awk -F: '{sum+=$2} END {print sum}'
9

10
# 查找包含特定 IP 的访问日志
11
grep "192.168.1.100" access.log
12

13
# 查找以 # 开头的注释行
14
grep "^#" config.conf
15

16
# 查找不包含注释的配置行
17
grep -v "^#" config.conf | grep -v "^$"
18

19
# 查找 Git 仓库中的作者
20
git log | grep "Author:"

sed：流编辑器#

sed（Stream Editor）是一个强大的文本流编辑器，它能对输入流（文件或管道）执行基本的文本转换操作。sed 以行为单位处理文本，适合批量修改、删除、插入等操作。

基本语法#

1
sed [选项] '命令' 文件
2
sed [选项] -f 脚本文件 文件
3

4
# 常用选项
5
sed -n '10p' file.txt           # 只显示第 10 行（-n 禁止默认输出）
6
sed -i.bak 's/old/new/g' file.txt # 直接修改文件并备份
7
sed -e 's/a/b/' -e 's/c/d/' file.txt # 执行多个命令

替换操作（s 命令）#

1
# 基本替换
2
sed 's/foo/bar/' file.txt       # 将每行第一个 foo 替换为 bar
3
sed 's/foo/bar/g' file.txt      # 将每行所有 foo 替换为 bar
4

5
# 使用分隔符（避免转义）
6
sed 's|/home/user|/home/newuser|' paths.txt
7
sed 's@http://@https://@g' urls.txt
8

9
# 删除匹配内容
10
sed 's/remove//g' file.txt
11

12
# 替换指定行
13
sed '10s/old/new/' file.txt     # 只替换第 10 行
14
sed '/pattern/s/old/new/' file.txt # 只替换包含 pattern 的行
15

16
# 大小写转换
17
sed 's/\(.*\)/\L\1/' file.txt   # 转换为小写
18
sed 's/\(.*\)/\U\1/' file.txt   # 转换为大写

删除操作（d 命令）#

1
# 删除行
2
sed '5d' file.txt               # 删除第 5 行
3
sed '/error/d' logfile.txt      # 删除包含 error 的行
4
sed '/^$/d' file.txt            # 删除空行
5
sed '5,10d' file.txt            # 删除第 5-10 行
6
sed '/start/,/end/d' file.txt   # 删除从 start 到 end 的所有行
7
sed '1d;$d' file.txt            # 删除第一行和最后一行
8

9
# 删除注释行和空行
10
sed '/^#/d;/^$/d' config.conf
11

12
# 删除行尾空白
13
sed 's/[[:space:]]*$//' file.txt

插入和追加操作（i、a、c 命令）#

1
# 在指定行前插入
2
sed '5i\# This is a new line' file.txt
3

4
# 在指定行后追加
5
sed '5a\# This is an appended line' file.txt
6

7
# 在匹配行前插入
8
sed '/pattern/i\# Header before pattern' file.txt
9

10
# 替换整行
11
sed '5c\# This line replaces line 5' file.txt
12

13
# 文件头添加内容
14
sed '1i\#!/bin/bash\n# Author: Admin' script.sh

高级操作#

1
# 多行处理
2
sed 'N;s/\n/ /' file.txt         # 合并连续两行
3
sed '/pattern/{N;s/\n/ /;}' file.txt
4

5
# 持久空间和模式空间
6
sed '/start/,/end/w output.txt' file.txt  # 将匹配范围写入文件
7

8
# 条件处理
9
sed '/error/{s/error/ERROR/;w error.log;}' logfile.txt
10

11
# 引用匹配内容（反向引用）
12
sed 's/\([0-9]\{3\}\)\([0-9]\{4\}\)/\1-\2/' phone.txt
13
# 将 1234567 转换为 123-4567
14

15
# 执行外部命令
16
sed '10r /etc/hosts' file.txt    # 在第 10 行后读取并插入文件内容

实用示例#

1
# 批量替换文件名中的空格为下划线
2
for file in *; do mv "$file" "$(echo $file | sed 's/ /_/g')"; done
3

4
# 移除 HTML 标签
5
sed 's/<[^>]*>//g' index.html
6

7
# 提取 IP 地址
8
sed -n 's/.*\([0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}\).*/\1/p' access.log
9

10
# 格式化 JSON（简单美化）
11
cat data.json | sed 's/{/{\n/g;s/}/}\n/g;s/,/,\n/g'
12

13
# 在每个函数定义前添加注释
14
sed '/^def /i\# Function implementation' *.py
15

16
# 日志分析：提取错误信息
17
sed -n '/ERROR/p' application.log | sed 's/^.*ERROR: /Error: /'
18

19
# 配置文件：启用选项
20
sed -i 's/^#Port 22$/Port 22/' sshd_config
21

22
# CSV 处理：提取特定列
23
sed 's/,[^,]*$//' data.csv     # 删除最后一列

awk：文本处理编程语言#

awk 是一种强大的文本处理编程语言，特别擅长处理结构化文本（如 CSV、日志文件）。它以行为单位处理文本，自动将每行分割成字段，并提供了完整的编程语言特性。

基本结构#

1
# 语法：awk 'pattern {action}' 文件
2
awk '/pattern/ {print}' file.txt
3

4
# 默认行为：打印匹配的整行
5
awk '/error/' logfile.txt
6

7
# 脚本格式
8
awk '
9
BEGIN {
10
    # 初始化代码，执行一次
11
}
12
/pattern/ {
13
    # 对匹配行执行的代码
14
}
15
{
16
    # 对每一行执行的代码
17
}
18
END {
19
    # 结束代码，执行一次
20
}
21
' file.txt

字段处理#

1
# 默认字段分隔符是空格和制表符
2
awk '{print $1}' file.txt              # 打印第一个字段
3
awk '{print $1, $3}' file.txt          # 打印第 1 和第 3 字段
4
awk '{print $NF}' file.txt             # 打印最后一个字段
5
awk '{print $(NF-1)}' file.txt         # 打印倒数第二个字段
6

7
# 指定字段分隔符
8
awk -F: '{print $1}' /etc/passwd       # 以冒号为分隔符
9
awk -F, '{print $2}' data.csv          # 以逗号为分隔符
10
awk 'BEGIN {FS="|"} {print $1}' data.txt
11

12
# 输出字段分隔符
13
awk 'BEGIN {FS=":"; OFS="-"} {print $1, $3}' /etc/passwd
14

15
# 记录分隔符
16
awk 'BEGIN {RS=";"} {print $1}' data.txt

内置变量#

1
# 常用内置变量
2
awk '{print NR, $0}' file.txt          # NR：行号，$0：整行
3
awk '{print FNR, $0}' file1.txt file2.txt  # FNR：当前文件行号
4
awk 'END {print NR}' file.txt          # 总行数
5
awk '{print NF}' file.txt              # 每行字段数
6
awk 'BEGIN {print FILENAME}' file.txt  # 当前文件名
7

8
# 更多内置变量
9
awk '{print $0}' file.txt              # $0：整行内容
10
awk '{if (NF > 5) print}' file.txt     # NF：字段数量
11
awk 'BEGIN {FS=":"; OFS="\t"}' file.txt  # FS：输入分隔符，OFS：输出分隔符
12
awk 'BEGIN {RS="\n\n"} {print}' file.txt    # RS：记录分隔符
13
awk 'BEGIN {ORS="\n\n"} {print}' file.txt   # ORS：输出记录分隔符

模式匹配#

1
# 正则表达式匹配
2
awk '/error/ {print}' logfile.txt
3
awk '!/error/ {print}' logfile.txt      # 不匹配
4
awk '/^$/ {print NR}' file.txt          # 空行的行号
5

6
# 字段匹配
7
awk '$3 == "admin"' users.txt
8
awk '$1 ~ /^[0-9]+$/' data.txt          # 第一个字段是纯数字
9
awk '$1 !~ /^#/ {print}' config.conf    # 不以 # 开头
10

11
# 比较操作
12
awk '$5 > 1000' sales.txt               # 第 5 字段大于 1000
13
awk '$1 == "John" && $2 == "Doe"' users.txt
14
awk '$1 == "admin" || $1 == "root"' users.txt
15

16
# 范围模式
17
awk '/start/,/end/' file.txt            # 从 start 到 end 的所有行
18
awk 'NR==10,NR==20' file.txt            # 第 10-20 行

控制结构#

1
# if 语句
2
awk '{if ($1 > 100) print "High:", $1; else print "Low:", $1}' data.txt
3

4
# for 循环
5
awk '{for (i=1; i<=NF; i++) print $i}' file.txt
6

7
# while 循环
8
awk '{i=1; while (i<=NF) {print $i; i++}}' file.txt
9

10
# 数组
11
awk '{count[$1]++} END {for (name in count) print name, count[name]}' users.txt
12

13
# 函数
14
awk 'function sum(arr) {
15
    total = 0
16
    for (i in arr) total += arr[i]
17
    return total
18
}
19
{for (i=1; i<=NF; i++) nums[i] = $i}
20
END {print sum(nums)}' numbers.txt

BEGIN 和 END 块#

1
# 计算列的平均值
2
awk 'BEGIN {sum=0; count=0}
3
{sum += $1; count++}
4
END {print "Average:", sum/count}' numbers.txt
5

6
# 统计文件信息
7
awk 'BEGIN {print "File Statistics:"}
8
END {print "Total lines:", NR; print "Total fields:", sum}' file.txt
9

10
# 格式化输出
11
awk 'BEGIN {printf "%-20s %10s %10s\n", "Name", "Age", "Salary"}
12
{printf "%-20s %10d %10.2f\n", $1, $2, $3}
13
END {print "--- End of report ---"}' employees.txt

实用示例#

1
# 统计每种状态的出现次数
2
awk '{count[$1]++} END {for (status in count) print status, count[status]}' status.log
3

4
# 计算日志中不同 IP 的访问次数
5
awk '{ip[$1]++} END {for (i in ip) print i, ip[i]}' access.log | sort -k2 -rn
6

7
# 提取 CSV 文件的特定列
8
awk -F, '{print $1, $3}' data.csv
9

10
# 计算数字列的总和
11
awk '{sum += $1} END {print sum}' numbers.txt
12

13
# 找出文件中最长的行
14
awk '{if (length($0) > max) {max = length($0); line = $0}} END {print line}' file.txt
15

16
# 日志分析：计算平均响应时间
17
awk '/response_time/ {sum += $3; count++} END {print "Avg:", sum/count}' server.log
18

19
# 转换为大写
20
awk '{print toupper($0)}' text.txt
21

22
# 去除重复行（类似 uniq）
23
awk '!seen[$0]++' file.txt
24

25
# 条件格式化
26
awk '{if ($3 > 90) printf "%s\t%s\tA\n", $1, $2;
27
      else if ($3 > 80) printf "%s\t%s\tB\n", $1, $2;
28
      else printf "%s\t%s\tC\n", $1, $2}' grades.txt
29

30
# 多文件处理
31
awk '{print FILENAME, NR, $0}' file1.txt file2.txt
32

33
# 时间戳转换
34
awk '{print strftime("%Y-%m-%d %H:%M:%S", $1)}' timestamps.txt

三剑客组合使用#

在实际工作中，grep、sed、awk 经常组合使用以完成复杂的文本处理任务：

1
# 查找并统计错误类型
2
grep "ERROR" application.log | awk '{print $4}' | sort | uniq -c
3

4
# 提取特定字段并进行转换
5
cat data.csv | grep "^2024" | awk -F, '{print $2}' | sed 's/,//g' | sort -n
6

7
# 日志分析管道
8
tail -f application.log | grep "ERROR" | awk '{print $1, $NF}' | while read ip message; do
9
    echo "Error from $ip: $message"
10
done
11

12
# 复杂数据提取
13
curl -s https://api.example.com/data | grep -o '"name":"[^"]*"' | sed 's/"name":"//g' | sed 's/"//g'
14

15
# 配置文件处理
16
cat nginx.conf | grep server_name | awk '{print $2}' | sed 's/;//g'
17

18
# 日志统计报告
19
awk '/ERROR/{err++} /WARN/{warn++} /INFO/{info++}
20
     END {printf "Errors: %d\nWarnings: %d\nInfo: %d\n", err, warn, info}' app.log

性能优化和最佳实践#

1
# 对于大文件，使用 grep 而不是 awk 进行简单匹配
2
grep "pattern" largefile.txt  # 比 awk '/pattern/' 快
3

4
# 使用 head 和 head -n 进行预览
5
head -100 largefile.txt | awk '{...}'
6

7
# 使用 -i 选项时，注意性能影响
8
grep "pattern" file.txt       # 比 grep -i 快
9

10
# 在 sed 中使用 -n 减少输出
11
sed -n '10,20p' file.txt       # 只输出需要的行
12

13
# 在 awk 中使用数组统计时，注意内存使用
14
awk '{count[$1]++} END {...}' largefile.txt  # 如果唯一键太多会占用大量内存
15

16
# 使用管道处理大文件
17
cat hugefile.txt | grep "pattern" | awk '{...}' > output.txt