linux awk 的基础应用

在Linux系统中,AWK 是一个非常强大的文本处理工具,在日常统计中起到重要的作用。

[@sjs_73_194 ~]$ man awk
GAWK(1)                        Utility Commands                        GAWK(1)

NAME
       gawk - pattern scanning and processing language

SYNOPSIS
       gawk [ POSIX or GNU style options ] -f program-file [ -- ] file ...
       gawk [ POSIX or GNU style options ] [ -- ] program-text file ...

       pgawk [ POSIX or GNU style options ] -f program-file [ -- ] file ...
       pgawk [ POSIX or GNU style options ] [ -- ] program-text file ...

 

一、内置变量

属 性 说 明
$0 当前记录行,代表一行记录
$1~$n 当前记录的第n个字段,字段间由FS分隔
FS 输入字段分隔符,默认是空格
NF 当前记录中的字段个数,就是有多少列,一般取最后一列字段
NR 已经读出的记录数,就是行号,从1开始
RS 输入的记录分隔符,默认为换行符
OFS 输出字段分隔符,默是空格
ORS 输出的记录分隔符,默认为换行符
ARGC 命令行参数个数
ARGV 命令行参数数组
FILENAME 当前输入文件的名字
IGNORECASE 如果为真,则进行忽略大小写的匹配
ARGIND 当前被处理文件的ARGV标志符
CONVFMT 数字转换格式 %.6g
ENVIRON UNIX环境变量
ERRNO UNIX系统错误消息
FIELDWIDTHS 输入字段宽度的空白分隔字符串
FNR 当前记录数
OFMT 数字的输出格式 %.6g
RSTART 被匹配函数匹配的字符串首
RLENGTH 被匹配函数匹配的字符串长度
SUBSEP \034

 

二、 变量实例

1) 常用操作

[@sjs_73_194 ~]$ awk '/^root/ {print $0}' /etc/passwd
root:x:0:0:root:/root:/bin/bash
[@sjs_73_194 ~]$

[@sjs_73_194 ~]$ awk '{if (match($0, /root/)) print $0}' /etc/passwd
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
[@sjs_73_194 ~]$ 

2) FS 分隔符

[@sjs_73_194 ~]$ awk 'BEGIN{FS=":"} /^root/ {print $1,$NF}' /etc/passwd
root /bin/bash
[@sjs_73_194 ~]$ 

    注: FS为字段分隔符,默认是空格。因为passwd里是”:”分隔,所以需要修改默认分隔符。除此之外还可以通过-F 来分隔,如

[@sjs_73_194 ~]$ awk -F: '/^root/ {print $1,$NF}' /etc/passwd               
root /bin/bash
[@sjs_73_194 ~]$ 

 

3) 记录条数(NR,FNR)

[@sjs_73_194 ~]$ awk '{print NR, FNR}' /etc/passwd  
1 1
2 2
3 3
4 4
5 5
6 6
7 7
8 8
9 9
10 10
11 11
... ...

 

4) 字段分隔符(OFS)

awk 'BEGIN{FS=":"; OFS="##"} /^root/ {print FNR, $1, $NF}' /etc/passwd

结果: 1##root##/bin/bash

注: OFS设置默认字段分隔符, FNR当前记录行

 

5) 行记录分隔符(ORS)

awk 'BEGIN{FS=":"; ORS="##"}{print FNR, $1, $NF}' /etc/passwd

结果: 1 root /bin/bash##2 daemon /bin/sh##3 bin /bin/sh##4 sys /bin/sh##5 sync /bin/sync##......

 

awk 'BEGIN{FS=":"; ORS="\n"}{print FNR, $1, $NF}' /etc/passwd                  #    "/n" 是linux 中换行符

结果:

1 root /bin/bash
2 daemon /bin/sh
3 bin /bin/sh
4 sys /bin/sh
5 sync /bin/sync

.......

注:  ORS默认是换行符,这里修改为:”##”,所有行之间用”##”分隔了

 

6) 参数获取(ARGC ,ARGV)

awk 'BEGIN{FS=":"; print "ARGC="ARGC; for(k in ARGV) {print k"="ARGV[k];}}' /etc/passwd

结果: 

ARGC=2
0=awk
1=/etc/passwd

注: ARGC得到所有输入参数个数,ARGV获得输入参数内容是一个数组

 

7) 获得传入的文件名(FILENAME)

awk 'BEGIN{FS=":";}/^r/ {print FILENAME, "\t", $0}' /etc/passwd

结果:

/etc/passwd   root:x:0:0:root:/root:/bin/bash
/etc/passwd   rtkit:x:110:117:RealtimeKit,,,:/proc:/bin/false

注: FILENAME, $0-$N,NF 不能使用在BEGIN中,BEGIN中不能获得任何与文件记录操作的变量

 

8) 获得linux环境变量(ENVIRON)

awk 'BEGIN{print ENVIRON["PATH"];}' /etc/passwd

结果: /home/homer/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games

注:  ENVIRON是子典型数组,可以通过对应键值获得它的值,linux 环境变量还有$HOME,$PWD等,可以通过linux 命令 env 查看

 

9) 输出数据格式设置(OFMT)

awk 'BEGIN{OFMT="%.3f"; print 1, 2.0, 3.1, 2/3, 123.11111111;}' /etc/passwd

结果: 1    2    3.100    0.667    123.111

注: OFMT默认输出格式是:%.6g 保留六位小数,这里修改OFMT会修改默认数据输出格式,如保留三位小数

 

10) 按宽度指定分隔符(FIELDWIDTHS)

echo 20130108122448 | awk 'BEGIN{FIELDWIDTHS="4 2 2 2 2 3"}{print $1"-"$2"-"$3, $4":"$5":"$6}'

结果: 2013-01-08 12:24:48

注: FIELDWIDTHS其格式为空格分隔的一串数字,用以对记录进行域的分隔,FIELDWIDTHS="4 2 2 2 2 2"就表示$1宽度是4,$2是2,$3是2 .... 这个时候会忽略FS分隔符

 

11) RSTART,RLENGTH使用

awk 'BEGIN{start=match("this is 1 teststr", /[a-z]+$/); print start, RSTART, RLENGTH }'

结果: 11 11 7

 

awk 'BEGIN{start=match("this is a test",/^[a-z ]+$/); print start, RSTART, RLENGTH }'

结果: 0 0 -1

 

awk 'BEGIN{start=match("this is a test",/^[a-z ]+$/); print start, RSTART, RLENGTH }'

结果: 1 1 14                 # 增加了一个空格“ ”匹配

注: RSTART 被匹配正则表达式首位置,RLENGTH 匹配字符长度,没有找到为-1

 

 

三、外部变量

1) 基本用法

awk 中两个特别的表达式,BEGIN和END

这两者都可用于pattern中,提供BEGIN和END的作用是给程序赋予 初始状态 和 程序结束 之后执行一些扫尾的工作。

a) 任何在BEGIN之后列出的操作(在{}内),将在awk开始扫描输入之前执行

b) 任何在END之后列出的操作,将在扫描完全部的输入之后执行

因此,通常使用BEGIN来显示变量和初始化变量,使用END来输出最终结果。

示例: echo 'awk test' | awk 'BEGIN{print "start...."} {print $0} END{print "end...."}'

结果: 

start....
awk test
end....

 

2) 获取外部变量

格式如: awk ‘{action}’ 变量名=变量值 ,这样传入变量可以在action中获得值。

示例: 

test='awk test'

echo | awk  '{print test}' test="$test"

结果: awk test

 

echo | awk  test="$test" '{print test}'

结果: awk: cmd. line:1: fatal: cannot open file `{print test}' for reading (No such file or directory)

注:变量名与值放到’{action}’后面,即 test="$test" 在 print 后面

 

3) BEGIN程序块中变量

格式如:awk –v 变量名=变量值 [–v 变量2=值2 …] 'BEGIN{action}’ 

示例:

test='awk test'

echo | awk -v test="$test" 'BEGIN{print test}'

结果: awk test

 

echo | awk -v test="$test" '{print test}'

结果: awk test

注:用-v 传入变量,可以在3中类型的action 中都可以获得到,但顺序在 action前面

 

4) 外部环境变量

awk  'BEGIN{for (i in ENVIRON) {print i"="ENVIRON[i];}}'

结果:

HLVL=1
PWD=/home/homer
JAVA_HOME=/home/homer/eclipse/jdk1.7.0_05
SHELL=/bin/bash

PATH=/home/homer/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games

..........

注:  ENVIRON是子典型数组,可以通过对应键值获得它的值,linux 环境变量还有$HOME,$PWD等,可以通过linux 命令 env 查看

 

四、统计应用

1) match匹配

[@zw_37_232 scookie]# head tmp.log 
/cesu.gif?b2386=0&b2387=128
# 
[@zw_37_232 scookie]# awk '{match($0,/.+b2386=([^,]+)\&b2387=([^,]+)/,a);print a[1], a[2]}'  tmp.log      
0 128
[@zw_37_232 scookie]# 

2) 多个文件

NR:表示awk开始执行程序后所读取的数据行数。
FNR:awk当前读取的记录数,其变量值小于等于NR(比如当读取第二个文件时,FNR是从0开始重新计数,而NR不会)。

NR==FNR:用于在读取两个或两个以上的文件时,判断是不是在读取第一个文件。

[@zw_37_232 cesu]# head -n 1 tmp.log 
710000 926
[@zw_37_232 cesu]# head -n 1 ../iploc.txt 

[@zw_37_232 cesu]# head -n 3 ../iploc.txt  

110000  北京市
[@zw_37_232 cesu]# awk 'NR==FNR{a[$1]=$2;next}{print $1,a[$1]}' ../iploc.txt tmp.log > sort.region.log
[@zw_37_232 cesu]# head -n 10 sort.region.log 
710000 台湾省
650000 新疆维吾尔自治区
540000 西藏自治区
530000 云南省
810000 香港特别行政区
650000 新疆维吾尔自治区
540000 西藏自治区
520000 贵州省
650000 新疆维吾尔自治区
650000 新疆维吾尔自治区

参考推荐: 

awk 实例 (IBM)

沉于思考,默默学习

linux awk 内置函数实例

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章