一、awk简介

awk 是一种编程语言，用于在linux/unix下对文本和数据进行处理。

数据可以来自标准输入、一个或多个文件，或其它命令的输出。

支持用户自定义函数和动态正则表达式等先进功能，是linux/unix
下的一个强大编程工具。

在命令行中使用，但更多是作为脚本来使用。

awk的处理文本和数据的方式是这样的，它逐行扫描文件，从第一行到最后一行，寻找匹配的特定模式的行，并在这些行上进行你想要的操作。如果没有指定处理动作，则把匹配的行显示到标准输出(屏幕)，如果没有指定模式，则所有被操作所指定的行都被处理。

awk分别代表其作者姓氏的第一个字母。因为它的作者是三个人，分别是Alfred Aho、Brian Kernighan、Peter Weinberger。

gawk是awk的GNU版本，它提供了Bell实验室和GNU的一些扩展。

二、awk的两种形式语法格式

awk [options] 'commands' filenames

awk [options] -f awk-script-file filenames

options：

-F 对于每次处理的内容，可以指定一个子定义的分隔符，默认的分隔符是空白字符（空格或 tab 键）

command：

BEGIN{}                        {}               END{}

处理所有内容之前的动作       处理内容中的动作   处理所有内容之后的动作

示例

 awk 'BEGIN{print 1/2} {print "----开始处理了---"} END{print "----都处理完毕---"}' /etc/hosts
----开始处理了---
ok
ok
ok
----都处理完毕---

BEGIN{} 通常用于定义一些变量，例如 BEGIN{FS=":";OFS="---"}

========================================================

三、awk工作原理

awk -F: '{print $1,$3}' /etc/passwd

(1)awk，会处理文件的每一个行，每次处理时，使用一行作为输入，并将这一行赋给内部变量$0，每一行也可称为一个记录，以换行符结束

(2)然后，行被:（默认为空格或制表符）分解成字段（或称为域），每个字段存储在已编号的变量中，从$1开始，
最多达100个字段

(3)awk如何知道用空白字符来分隔字段的呢？因为有一个内部变量FS来确定字段分隔符。初始时，FS赋为空白字符

(4)awk打印字段时，将以内置的方法使用 print 函数打印，awk 在打印出的字段间加上空格。这个空格是内部的一个变量 OFS 输出字段的分隔符, 逗号 , 会和 OFS 进行映射，通过 OFS 可以控制这个输出分隔符的值。

(5)awk输出之后，将从文件中获取另一行，并将其存储在$0中，覆盖原来的内容，然后将新的字符串分隔成字段并进行处理。该过程将持续到所有行处理完毕

========================================================

四、记录与字段相关内部变量：

man awk

$0 ： awk变量 $0 保存当前正在处理的行内容
NR ：当前正在处理的行是 awk 总共处理的行号。
FNR：当前正在处理的行在其文件中的行号。
NF ：每行被处理时的总字段数
FS ：输入行时的字段分隔符，默认空格
awk 'BEGIN{FS=":"} {print $1,$3}' /etc/passwd
OFS ：输出字段分隔符,默认是一个空格
awk 'BEGIN{FS=":"; OFS="+++"} /^root/{print $1,$2,$3,$4}' /etc/passwd
ORS 输出记录分隔符, 默认是换行符.

示例

将文件每一行合并为一行

ORS默认输出一条记录应该回车，但是这里是加了一个空格

awk 'BEGIN{ORS="  "} {print $0}' /etc/passwd

五、格式化输出：

printf 函数

awk -F: '{printf "%-15s %-10s %-15s\n", $1,$2,$3}' /etc/passwd
awk -F: '{printf "|%-15s| %-10s| %-15s|\n", $1,$2,$3}' /etc/passwd

%s 字符类型
%d 数值类型
%f 浮点类型
%-15s占15字符 - 表示左对齐，默认是右对齐
printf 默认不会在行尾自动换行，加 \n

六、awk模式和动作

任何 awk 语句都由模式和动作组成。

模式部分 决定动作语句何时触发及触发事件。
如果省略模式部分，动作将时刻保持执行状态。

模式可以是任何条件语句或复合语句或正则表达式。

模式包括两个特殊字段 BEGIN 和 END。

通常使用 BEGIN 语句设置变量、计数的初始值和打印表格的表头字段等。

BEGIN 语句使用在任何文本浏览动作之前，之后文本浏览动作依据输入文本开始执行。

END 语句用来在awk完成文本浏览动作后打印输出文本总数和结尾状态。

模式可以是

正则表达式：

匹配记录（整行的匹配）：

awk '/^root/' /etc/passwd
awk '$0 ~ /^root/' /etc/passwd
awk '!/root/' passwd
awk '$0 !~ /^root/' /etc/passwd

匹配字段：可以使用的匹配操作符（~ 和 !~）

awk -F: '$1 ~ /^alice/' /etc/passwd
awk -F: '$NF !~ /bash$/' /etc/passwd

比较表达式：

比较表达式采用对文本进行比较，只有当条件为真，才执行指定的动作。
比较表达式使用关系运算符，用于比较数字与字符串。

关系运算符有
< 小于例如 x<y
> 大于 x>y
<= 小于或等于 x<=y
== 等于 x==y
!= 不等于 x!=y
>= 大于等于 x>=y

示例

awk -F: '$3 == 0' /etc/passwd
awk -F: '$3 < 10' /etc/passwd
awk -F: '$NF == "/bin/bash"' /etc/passwd
awk -F: '$1 == "root"' /etc/passwd

df -P | grep '/' |awk '$4 > 25000'

条件表达式：

awk -F: '$3>300 {print $0}' /etc/passwd
awk -F: '{ if($3>300) print $0 }' /etc/passwd
awk -F: '{ if($3>300) {print $0} }' /etc/passwd
awk -F: '{ if($3>300) {print $3} else{print $1} }' /etc/passwd

算术运算：+ - * / %(模) ^(幂23)

可以在模式中执行计算，awk都将按浮点数方式执行算术运算

awk -F: '$3 * 10 > 500' /etc/passwd
awk -F: '{ if($3*10>500){print $0} }' /etc/passwd

逻辑操作符和复合模式

&& 逻辑与, 相当于并且
||逻辑或，相当于或者
! 逻辑非 , 取反

awk -F: '$1~/root/ && $3<=15' /etc/passwd
awk -F: '$1~/root/ || $3<=15' /etc/passwd
awk -F: '!($1~/root/ || $3<=15)' /etc/passwd

范围模式, 符号是逗号 ,

使用语法是： 起始表达式, 终止表达式

➜  ~ awk -F: '/^bin/,/adm/ {print $0 }' /etc/passwd
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin

awk 正则示例：

➜  ~ awk -F: '/^(bin|root)/' /etc/passwd
root:x:0:0:root:/root:/bin/zsh
bin:x:1:1:bin:/bin:/sbin/nologin

七、awk 脚本编程

条件判断

if语句

格式 { if (表达式) {语句; 语句; ...}}

awk -F: '{if($3==0) {print $1 " is administrator."}}' /etc/passwd

awk -F: '{if($3>0 && $3<1000){count++;}} END{print count}' /etc/passwd 
统计系统级别用户的数量

if...else语句

格式 {if(表达式)｛语句;语句;...｝else{语句;语句;...}}

awk -F: '{if($3==0){print $1} else {print $7}}' /etc/passwd
awk -F: '{if($3==0) {count++} else{i++} }' /etc/passwd
awk -F: '{ if($3==0){count++} else{i++} } END{print "管理员个数: "count ; print  "系统用户数: "i}' /etc/passwd

if...else if...else语句

格式
{if(表达式1) {语句;语句；...} else if (表达式2) {语句;语句；...} else if(表达式3){语句;语句；...} else {语句;语句；...} }

awk -F: '{if($3==0){i++} else if($3>999){k++} else{j++}} END{print i; print k; print j}' /etc/passwd

awk -F: '{if($3==0){i++} else if($3>999){k++} else{j++}} END{print "管理员个数: "i; print "普通用个数: "k; print "系统用户: "j}' /etc/passwd

循环

while

语法格式 awk '{ while(循环的条件){循环体}}'

awk 'BEGIN{ i=1; while(i<=10)   {print i; i++} }'
awk -F: '/^root/{i=1; while(i<=7){print $i; i++}}' passwd
awk '{i=1; while(i<=NF){print $i; i++}}' /etc/hosts
awk -F: '{i=1; while(i<=10) {print $0; i++}}' /etc/passwd //将每行打印10次

awk 'BEGIN{for(i=1;i<=5;i++){print i} }' //C风格for
1
2
3
4
5

awk -F: '{ for(i=1;i<=10;i++) {print $0} }' /etc/passwd //将每行打印10次
awk -F: '{ for(i=1;i<=NF;i++) {print $i} }' passwd //分别打印每行的每列

数组

# awk -F: '{username[++i]=$1} END{print username[1]}' /etc/passwd
root
# awk -F: '{username[i++]=$1} END{print username[1]}' /etc/passwd
bin
# awk -F: '{username[i++]=$1} END{print username[0]}' /etc/passwd
root

数组遍历：

1. 按索引遍历
2. 按元数个数遍历

按元数个数遍历

awk -F: '{username[x++]=$1} END{for(i=0;i<x;i++) print i,username[i]}' /etc/passwd
awk -F: '{username[++x]=$1} END{for(i=1;i<=x;i++) print i,username[i]}' /etc/passwd

按索引遍历

# awk -F: '{username[x++]=$1} END{for(i in username) {print i,username[i]} }' /etc/passwd
# awk -F: '{username[++x]=$1} END{for(i in username) {print i,username[i]} }' /etc/passwd
注：变量i是索引

练习：

1\. 统计/etc/passwd中各种类型shell的数量
[root@tianyun ~]# awk -F: '{shells[$NF]++} END{ for(i in shells){print i,shells[i]} }' /etc/passwd

２. 网站访问状态统计　<当前时实状态 netstat>
[root@tianyun ~]# netstat -ant |grep :80 |awk '{access_stat[$NF]++} END{for(i in access_stat ){print i,access_stat[i]}}'
TIME_WAIT 1064
ESTABLISHED 1
LISTEN 1
[root@tianyun ~]# netstat -ant |grep :80 |awk '{access_stat[$NF]++} END{for(i in access_stat ){print i,access_stat[i]}}' |sort -k2 -n |head

[root@tianyun ~]# ss -an |grep :80 |awk '{access_stat[$2]++} END{for(i in access_stat){print i,access_stat[i]}}'
LISTEN 1
ESTAB 5
TIME-WAIT 97

[root@tianyun ~]# ss -an |grep :80 |awk '{access_stat[$2]++} END{for(i in access_stat){print i,access_stat[i]}}' |sort -k2 -rn
TIME-WAIT 18
ESTAB 8
LISTEN 1

3\. 统计当前访问的每个IP的数量 <当前时实状态 netstat,ss>
[root@tianyun ~]# netstat -ant |grep :80 |awk -F: '{ip_count[$8]++} END{for(i in ip_count){print i,ip_count[i]} }' |sort
172.16.130.16 289
172.16.130.33 254
172.16.130.44 158
172.16.130.99 4

[root@tianyun ~]# ss -an |grep :80 |awk -F":" '!/LISTEN/{ip_count[$(NF-1)]++} END{for(i in ip_count){print i,ip_count[i]}}' |sort -k2 -rn |head
172.16.160.77 59
172.16.160.221 16
172.16.160.17 11
172.16.160.69 8
172.16.160.51 7
172.16.160.49 7
172.16.160.13 7
172.16.160.153 3
172.16.160.79 2
172.16.160.52 2

4\. 统计Apache/Nginx日志中某一天的PV量 　<统计日志>
[root@tianyun log]# grep '22/Mar/2017' cd.mobiletrain.org.log |wc -l
1646

5\. 统计Apache/Nginx日志中某一天不同IP的访问量　<统计日志>
[root@tianyun nginx_log]# grep '07/Aug/2012' access.log |awk '{ips[$1]++} END{for(i in ips){print i,ips[i]} }' |sort -k2 -rn |head
222.130.129.42 5761
123.126.51.94 988
123.126.68.22 588
123.114.46.141 418
61.135.249.218 368
110.75.173.162 330
110.75.173.163 327
110.75.173.161 321
110.75.173.160 319
110.75.173.164 314

[root@tianyun nginx_log]# grep '07/Aug/2012' access.log |awk '{ips[$1]++} END{for(i in ips){print i,ips[i]} }' |awk '$2>100' |sort -k2 -rn
222.130.129.42 5761
123.126.51.94 988
123.126.68.22 588
123.114.46.141 418
61.135.249.218 368
110.75.173.162 330
110.75.173.163 327
110.75.173.161 321
110.75.173.160 319
110.75.173.164 314
1.202.218.67 313
110.75.173.159 311
203.208.60.80 294
221.221.207.202 266
203.208.60.82 230
203.208.60.81 209
38.111.147.83 206
61.135.249.220 187
183.39.187.86 178
61.156.142.207 129

[root@tianyun log]# awk '/22\/Mar\/2017/{ips[$1]++} END{for(i in ips){print i,ips[i]}}' sz.mobiletrain.org.log |awk '$2>100' |sort -k2 -rn|head180.153.93.44 1327
119.147.33.19 551
119.147.33.26 234
119.147.33.22 216
119.147.33.21 214
101.69.121.35 209
183.214.128.174 193
175.6.26.173 178
27.221.28.174 167
121.29.54.11 161

[root@tianyun log]# awk '/22\/Mar\/2017/{ips[$1]++} END{for(i in ips){if(ips[i]>100){print i,ips[i]}}}' sz.mobiletrain.org.log|sort -k2 -rn|head
180.153.93.44 1327
119.147.33.19 551
119.147.33.26 234
119.147.33.22 216
119.147.33.21 214
101.69.121.35 209
183.214.128.174 193
175.6.26.173 178
27.221.28.174 167
121.29.54.11 161

## 思路：将需要统计的内容（某一个字段）作为数组的索引 ++

awk函数 统计用户名为4个字符的用户：
[root@tianyun ~]# awk -F: '$1~/^....$/{count++; print $1} END{print "count is: " count}' /etc/passwd
root
sync
halt
mail
news
uucp
nscd
vcsa
pcap
sshd
dbus
jack
count is: 12

[root@tianyun ~]# awk -F: 'length($1)==4{count++; print $1} END{print "count is: "count}' /etc/passwd
root
sync
halt
mail
news
uucp
nscd
vcsa
pcap
sshd
dbus
jack
count is: 12

## awk使用外部变量：

扩展
方法一：在双引号的情况下使用
[root@tianyun ~]# var="bash"
[root@tianyun ~]# echo "unix script" |awk "gsub(/unix/,\"$var\")"
bash script

方法一：在单引号的情况下使用
[root@tianyun ~]# var="bash"
[root@tianyun ~]# echo "unix script" |awk 'gsub(/unix/,"'"$var"'")'
bash script

[root@tianyun ~]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/cl-root 2.8T 246G 2.5T 9% /
tmpfs 24G 20K 24G 1% /dev/shm
/dev/sda2 1014M 194M 821M 20% /boot

[root@tianyun ~]# df -h |awk '{ if(int($5)>5){print $6":"$5} }'
/:9%
/boot:20%

[root@tianyun ~]# i=10
[root@tianyun ~]# df -h |awk '{ if(int($5)>'''$i'''){print $6":"$5} }'
/boot:20%

方法一：awk参数-v（建议）
[root@tianyun ~]# echo "unix script" |awk -v var="bash" 'gsub(/unix/,var)'
bash script

[root@tianyun ~]# awk -v user=root -F: '$1 == **user**' /etc/passwd
root:x:0:0:root:/root:/bin/bash

作业：
1\. 取得网卡IP（除ipv6以外的所有IP）
2\. 获得内存使用情况
3\. 获得磁盘使用情况
4\. 清空本机的ARP缓存
5\. 打印出/etc/hosts文件的最后一个字段（按空格分隔）
6\. 打印指定目录下的目录名
 方法一：
[root@tianyun apache_log]# arp -n |awk '/^[0-9]/{print "arp -d "$1}'
arp -d 172.16.100.10
arp -d 172.16.100.178
arp -d 172.16.100.208
arp -d 172.16.100.49
arp -d 172.16.100.250
arp -d 172.16.100.127
arp -d 172.16.100.11
arp -d 172.16.100.148
arp -d 172.16.100.128
arp -d 172.16.100.59
arp -d 172.16.100.183
[root@tianyun apache_log]# arp -n |awk '/^[0-9]/{print "arp -d "$1}' |bash

方法二：
[root@tianyun apache_log]# arp -n |awk '/^[0-9]/{print $1}' |xargs -I {} arp -d {}

[root@tianyun ~]# awk -F: '{print $7}' /etc/passwd
[root@tianyun ~]# awk -F: '{print $NF}' /etc/passwd
[root@tianyun ~]# awk -F: '{print $(NF-1)}' /etc/passwd

[root@tianyun ~]# ll |grep '^d'
drwxr-xr-x 104 root root 12288 09-22 05:37 192.168.0.48
drwxr-xr-x 2 root root 4096 10-30 15:47 apache_log
drwxr-xr-x 2 root root 4096 10-30 15:23 awk
drwxr-xr-x 2 root root 4096 10-24 09:09 Desktop
drwxr-xr-x 12 root root 4096 10-08 06:12 LEMP_Soft
drwxr-xr-x 2 root root 4096 10-24 07:38 scripts
drwxr-xr-x 6 root root 4096 2012-03-29 uplayer
drwxr-xr-x 7 root root 4096 10-23 04:53 vmware

[root@tianyun ~]# ll |grep '^d' |awk '{print $NF}'
192.168.0.48
apache_log
awk
Desktop
LEMP_Soft
scripts
uplayer
vmware

Shell_awk