linux awk 的基础应用

在Linux系统中，AWK 是一个非常强大的文本处理工具，在日常统计中起到重要的作用。

[@sjs_73_194 ~]$ man awk
GAWK(1)                        Utility Commands                        GAWK(1)

NAME
       gawk - pattern scanning and processing language

SYNOPSIS
       gawk [ POSIX or GNU style options ] -f program-file [ -- ] file ...
       gawk [ POSIX or GNU style options ] [ -- ] program-text file ...

       pgawk [ POSIX or GNU style options ] -f program-file [ -- ] file ...
       pgawk [ POSIX or GNU style options ] [ -- ] program-text file ...

一、内置变量

属性	说明
$0	当前记录行，代表一行记录
$1~$n	当前记录的第n个字段，字段间由FS分隔
FS	输入字段分隔符，默认是空格
NF	当前记录中的字段个数，就是有多少列，一般取最后一列字段
NR	已经读出的记录数，就是行号，从1开始
RS	输入的记录分隔符，默认为换行符
OFS	输出字段分隔符，默是空格
ORS	输出的记录分隔符，默认为换行符
ARGC	命令行参数个数
ARGV	命令行参数数组
FILENAME	当前输入文件的名字
IGNORECASE	如果为真，则进行忽略大小写的匹配
ARGIND	当前被处理文件的ARGV标志符
CONVFMT	数字转换格式 %.6g
ENVIRON	UNIX环境变量
ERRNO	UNIX系统错误消息
FIELDWIDTHS	输入字段宽度的空白分隔字符串
FNR	当前记录数
OFMT	数字的输出格式 %.6g
RSTART	被匹配函数匹配的字符串首
RLENGTH	被匹配函数匹配的字符串长度
SUBSEP	\034

二、变量实例

1）常用操作

[@sjs_73_194 ~]$ awk '/^root/ {print $0}' /etc/passwd
root:x:0:0:root:/root:/bin/bash
[@sjs_73_194 ~]$

[@sjs_73_194 ~]$ awk '{if (match($0, /root/)) print $0}' /etc/passwd
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
[@sjs_73_194 ~]$

2） FS 分隔符

[@sjs_73_194 ~]$ awk 'BEGIN{FS=":"} /^root/ {print $1,$NF}' /etc/passwd
root /bin/bash
[@sjs_73_194 ~]$

注： FS为字段分隔符，默认是空格。因为passwd里是”:”分隔，所以需要修改默认分隔符。除此之外还可以通过-F 来分隔，如

[@sjs_73_194 ~]$ awk -F: '/^root/ {print $1,$NF}' /etc/passwd               
root /bin/bash
[@sjs_73_194 ~]$

3） 记录条数（NR，FNR）

[@sjs_73_194 ~]$ awk '{print NR, FNR}' /etc/passwd  
1 1
2 2
3 3
4 4
5 5
6 6
7 7
8 8
9 9
10 10
11 11
... ...

4）字段分隔符（OFS）

awk 'BEGIN{FS=":"; OFS="##"} /^root/ {print FNR, $1, $NF}' /etc/passwd

结果： 1##root##/bin/bash

注： OFS设置默认字段分隔符， FNR当前记录行

5）行记录分隔符（ORS）

awk 'BEGIN{FS=":"; ORS="##"}{print FNR, $1, $NF}' /etc/passwd

结果： 1 root /bin/bash##2 daemon /bin/sh##3 bin /bin/sh##4 sys /bin/sh##5 sync /bin/sync##......

awk 'BEGIN{FS=":"; ORS="\n"}{print FNR, $1, $NF}' /etc/passwd # "/n" 是linux 中换行符

结果：

1 root /bin/bash
2 daemon /bin/sh
3 bin /bin/sh
4 sys /bin/sh
5 sync /bin/sync

.......

注： ORS默认是换行符，这里修改为：”##”，所有行之间用”##”分隔了

6）参数获取（ARGC ，ARGV）

awk 'BEGIN{FS=":"; print "ARGC="ARGC; for(k in ARGV) {print k"="ARGV[k];}}' /etc/passwd

结果：

ARGC=2
0=awk
1=/etc/passwd

注： ARGC得到所有输入参数个数，ARGV获得输入参数内容是一个数组

7）获得传入的文件名（FILENAME）

awk 'BEGIN{FS=":";}/^r/ {print FILENAME, "\t", $0}' /etc/passwd

结果：

/etc/passwd root:x:0:0:root:/root:/bin/bash
/etc/passwd rtkit:x:110:117:RealtimeKit,,,:/proc:/bin/false

注： FILENAME, $0-$N,NF 不能使用在BEGIN中，BEGIN中不能获得任何与文件记录操作的变量

8）获得linux环境变量（ENVIRON）

awk 'BEGIN{print ENVIRON["PATH"];}' /etc/passwd

结果： /home/homer/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games

注： ENVIRON是子典型数组，可以通过对应键值获得它的值，linux 环境变量还有$HOME，$PWD等，可以通过linux 命令 env 查看

9）输出数据格式设置（OFMT）

awk 'BEGIN{OFMT="%.3f"; print 1, 2.0, 3.1, 2/3, 123.11111111;}' /etc/passwd

结果： 1 2 3.100 0.667 123.111

注： OFMT默认输出格式是：%.6g 保留六位小数，这里修改OFMT会修改默认数据输出格式，如保留三位小数

10）按宽度指定分隔符（FIELDWIDTHS）

echo 20130108122448 | awk 'BEGIN{FIELDWIDTHS="4 2 2 2 2 3"}{print $1"-"$2"-"$3, $4":"$5":"$6}'

结果： 2013-01-08 12:24:48

注： FIELDWIDTHS其格式为空格分隔的一串数字，用以对记录进行域的分隔，FIELDWIDTHS="4 2 2 2 2 2"就表示$1宽度是4，$2是2，$3是2 .... 这个时候会忽略FS分隔符

11） RSTART，RLENGTH使用

awk 'BEGIN{start=match("this is 1 teststr", /[a-z]+$/); print start, RSTART, RLENGTH }'

结果： 11 11 7

awk 'BEGIN{start=match("this is a test",/^[a-z ]+$/); print start, RSTART, RLENGTH }'

结果： 0 0 -1

awk 'BEGIN{start=match("this is a test",/^[a-z ]+$/); print start, RSTART, RLENGTH }'

结果： 1 1 14 # 增加了一个空格“ ”匹配

注： RSTART 被匹配正则表达式首位置，RLENGTH 匹配字符长度，没有找到为-1

三、外部变量

1）基本用法

awk 中两个特别的表达式，BEGIN和END

这两者都可用于pattern中，提供BEGIN和END的作用是给程序赋予初始状态和程序结束之后执行一些扫尾的工作。

a）任何在BEGIN之后列出的操作（在{}内），将在awk开始扫描输入之前执行

b）任何在END之后列出的操作，将在扫描完全部的输入之后执行

因此，通常使用BEGIN来显示变量和初始化变量，使用END来输出最终结果。

示例： echo 'awk test' | awk 'BEGIN{print "start...."} {print $0} END{print "end...."}'

结果：

start....
awk test
end....

2）获取外部变量

格式如： awk ‘{action}’ 变量名=变量值，这样传入变量可以在action中获得值。

示例：

test='awk test'

echo | awk '{print test}' test="$test"

结果： awk test

echo | awk test="$test" '{print test}'

结果： awk: cmd. line:1: fatal: cannot open file `{print test}' for reading (No such file or directory)

注：变量名与值放到’{action}’后面，即 test="$test" 在 print 后面

3） BEGIN程序块中变量

格式如：awk –v 变量名=变量值 [–v 变量2=值2 …] 'BEGIN{action}’

示例：

test='awk test'

echo | awk -v test="$test" 'BEGIN{print test}'

结果： awk test

echo | awk -v test="$test" '{print test}'

结果： awk test

注：用-v 传入变量，可以在3中类型的action 中都可以获得到，但顺序在 action前面

4）外部环境变量

awk 'BEGIN{for (i in ENVIRON) {print i"="ENVIRON[i];}}'

结果：

HLVL=1
PWD=/home/homer
JAVA_HOME=/home/homer/eclipse/jdk1.7.0_05
SHELL=/bin/bash

PATH=/home/homer/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games

..........

注： ENVIRON是子典型数组，可以通过对应键值获得它的值，linux 环境变量还有$HOME，$PWD等，可以通过linux 命令 env 查看

四、统计应用

1） match匹配

[@zw_37_232 scookie]# head tmp.log 
/cesu.gif?b2386=0&b2387=128
# 
[@zw_37_232 scookie]# awk '{match($0,/.+b2386=([^,]+)\&b2387=([^,]+)/,a);print a[1], a[2]}'  tmp.log      
0 128
[@zw_37_232 scookie]#

2）多个文件

NR：表示awk开始执行程序后所读取的数据行数。
FNR：awk当前读取的记录数，其变量值小于等于NR（比如当读取第二个文件时，FNR是从0开始重新计数，而NR不会）。

NR==FNR：用于在读取两个或两个以上的文件时，判断是不是在读取第一个文件。

[@zw_37_232 cesu]# head -n 1 tmp.log 
710000 926
[@zw_37_232 cesu]# head -n 1 ../iploc.txt 

[@zw_37_232 cesu]# head -n 3 ../iploc.txt  

110000  北京市
[@zw_37_232 cesu]# awk 'NR==FNR{a[$1]=$2;next}{print $1,a[$1]}' ../iploc.txt tmp.log > sort.region.log
[@zw_37_232 cesu]# head -n 10 sort.region.log 
710000 台湾省
650000 新疆维吾尔自治区
540000 西藏自治区
530000 云南省
810000 香港特别行政区
650000 新疆维吾尔自治区
540000 西藏自治区
520000 贵州省
650000 新疆维吾尔自治区
650000 新疆维吾尔自治区

参考推荐：

awk 实例（IBM）

沉于思考，默默学习

linux awk 内置函数实例

linux awk 的基础应用

Win10 LTSC 2019 安装后的一些步骤

推荐2款开源、美观的WinForm UI控件库

NET9 AspnetCore将整合OpenAPI的文档生成功能而无需三方库

在Linux下管理MySQL的大小写敏感性

【轉載】PHP register_shutdown_function函數詳解

Linux下C++訪問MySQL 【轉】

Golang 實現冒泡算法、選擇算法與插入算法

shell 命令行輸出二進制文件後亂碼的處理

[php] 索引數組合並選擇兩數組相加

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結