awk工作流程是這樣的:讀入有'\n'換行符分割的一條記錄,然後將記錄按指定的域分隔符劃分域,填充域,$0則表示所有域,$1表示第一個域,$n表示第n個域。默認域分隔符是"空白鍵"或 "[tab]鍵",所以$1表示登錄用戶,$3表示登錄用戶ip,以此類推。
[root@localhost test]# head /etc/passwd|awk -F ':' '{print $1}'
root
bin
daemon
adm
lp
sync
shutdown
halt
uucp
如果只是顯示/etc/passwd的賬戶和賬戶對應的shell,而賬戶與shell之間以tab鍵分割
[root@localhost test]# head /etc/passwd|awk -F ':' '{print $1"\t"$6}'
root /root
bin /bin
daemon /sbin
adm /var/adm
lp /var/spool/lpd
sync /sbin
shutdown /sbin
halt /sbin
mail /var/spool/mail
uucp /var/spool/uucp
如果只是顯示/etc/passwd的賬戶和賬戶對應的shell,而賬戶與shell之間以逗號分割,而且在所有行添加列名name,shell,在最後一行添加"blue,/bin/nosh"。
[root@localhost test]# head /etc/passwd|awk -F ':' 'BEGIN {print "name,shell"} {print $1","$7} END {print "blush,/bin/nosh"}'
name,shell
root,/bin/bash
bin,/sbin/nologin
daemon,/sbin/nologin
adm,/sbin/nologin
lp,/sbin/nologin
sync,/bin/sync
shutdown,/sbin/shutdown
halt,/sbin/halt
mail,/sbin/nologin
uucp,/sbin/nologin
blush,/bin/nosh
搜索/etc/passwd有root關鍵字的所有行
[root@localhost test]# awk -F : '/root/' /etc/passwd
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
搜索支持正則,例如找root開頭的
[root@localhost test]# awk -F: '/^root/' /etc/passwd
root:x:0:0:root:/root:/bin/bash
awk內置變量
awk有許多內置變量用來設置環境信息,這些變量可以被改變,下面給出了最常用的一些變量。
ARGC 命令行參數個數
ARGV 命令行參數排列
ENVIRON 支持隊列中系統環境變量的使用
FILENAME awk瀏覽的文件名
FNR 瀏覽文件的記錄數
FS 設置輸入域分隔符,等價於命令行 -F選項
NF 瀏覽記錄的域的個數
NR 已讀的記錄數
OFS 輸出域分隔符
ORS 輸出記錄分隔符
RS 控制記錄分隔符
此外,$0變量是指整條記錄。$1表示當前行的第一個域,$2表示當前行的第二個域,......以此類推。
變量和賦值
除了awk的內置變量,awk還可以自定義變量。
下面統計/etc/passwd的賬戶人數
awk 'BEGIN {count=0;print "[start]user count is ", count} {count=count+1;print $0;} END{print "[end]user count is ", count}' /etc/passwd
[start]user count is 0
root:x:0:0:root:/root:/bin/bash
...
[end]user count is 40
統計某個文件夾下的文件佔用的字節數
ls -l |awk'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size}'
[end]size is 8657198
如果以M爲單位顯示:
ls -l |awk'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size/1024/1024,"M"}'
[end]size is 8.25889 M
注意,統計不包括文件夾的子目錄。
drwxr-xr-x. 2 root root 4096 Aug 14 10:15 tttt (4094 的是文件夾)
統計某個文件夾下的文件佔用的字節數,過濾4096大小的文件(一般都是文件夾):
ls -l |awk'BEGIN {size=0;print "[start]size is ", size} {if($5!=4096){size=size+$5;}} END{print "[end]size is ", size/1024/1024,"M"}'
[end]size is 8.22339 M
數組
因爲awk中數組的下標可以是數字和字母,數組的下標通常被稱爲關鍵字(key)。值和關鍵字都存儲在內部的一張針對key/value應用hash的表格裏。由於hash不是順序存儲,因此在顯示數組內容時會發現,它們並不是按照你預料的順序顯示出來的。數組和變量一樣,都是在使用時自動創建的,awk也同樣會自動判斷其存儲的是數字還是字符串。一般而言,awk中的數組用來從記錄中收集信息,可以用於計算總和、統計單詞以及跟蹤模板被匹配的次數等等。
顯示/etc/passwd的賬戶
awk -F ':''BEGIN {count=0;} {name[count] = $1;count++;}; END{for (i = 0; i < NR; i++) print i, name[i]}' /etc/passwd
0 root
1 daemon
2 bin
3 sys
4 sync
5 games
......
awk-內置函數使用及說明
一、算術函數:
以下算術函數執行與 C 語言中名稱相同的子例程相同的操作:
函數名 |
說明 |
atan2( y, x ) |
返回 y/x 的反正切。 |
cos( x ) |
返回 x 的餘弦;x 是弧度。 |
sin( x ) |
返回 x 的正弦;x 是弧度。 |
exp( x ) |
返回 x 冪函數。 |
log( x ) |
返回 x 的自然對數。 |
sqrt( x ) |
返回 x 平方根。 |
int( x ) |
返回 x 的截斷至整數的值。 |
rand( ) |
返回任意數字 n,其中 0 <= n < 1。 |
srand( [Expr] ) |
將 rand 函數的種子值設置爲 Expr 參數的值,或如果省略 Expr 參數則使用某天的時間。返回先前的種子值。 |
[root@localhost test]# awk 'BEGIN{OFMT="%.3f";fs=sin(1);fe=exp(10);fl=log(10);fi=int(3.1415);print fs,fe,fl,fi;}'
0.841 22026.466 2.303 3
OFMT 設置輸出數據格式是保留3位小數
獲得隨機數:
[root@localhost test]# awk 'BEGIN{srand();fr=int(100*rand());print fr;}'
44
[root@localhost test]# awk 'BEGIN{srand();fr=int(100*rand());print fr;}'
38
二、字符串函數是:
函數 |
說明 |
gsub( Ere, Repl, [ In ] ) |
全局替換,除了正則表達式所有具體值被替代這點,它和sub 函數完全一樣地執行,。 |
sub( Ere, Repl, [ In ] ) gensub(Ere, Repl, h, [In]) |
sub:第一次出現的替換,用 Repl 參數指定的字符串替換 In 參數指定的字符串中的由 Ere 參數指定的擴展正則表達式的第一個具體值。sub 函數返回替換的字符數量。出現在 Repl參數指定的字符串中的 &(和符號)由 In 參數指定的與Ere 參數的指定的擴展正則表達式匹配的字符串替換。如果未指定 In 參數,缺省值是整個記錄($0 記錄變量)。 gensub:類似於sub,但是h參數可以控制替換的位置,g/G全局替換,h爲數字表示替換第幾次出現的位置,具體查看man awk |
index( String1, String2 ) |
在由 String1 參數指定的字符串(其中有出現 String2 指定的參數)中,返回位置,從 1 開始編號。如果 String2參數不在 String1 參數中出現,則返回 0(零)。 |
length [(String)] |
返回 String 參數指定的字符串的長度(字符形式)。如果未給出 String 參數,則返回整個記錄的長度($0 記錄變量)。 |
blength [(String)] |
返回 String 參數指定的字符串的長度(以字節爲單位)。如果未給出 String 參數,則返回整個記錄的長度($0 記錄變量)。 |
substr( String, M, [ N ] ) |
返回具有 N 參數指定的字符數量子串。子串從 String 參數指定的字符串取得,其字符以 M 參數指定的位置開始。M參數指定爲將 String 參數中的第一個字符作爲編號 1。如果未指定 N 參數,則子串的長度將是 M 參數指定的位置到String 參數的末尾 的長度。 |
match( String, Ere ) 可以使用'~' $0 ~ /partern/ |
在 String 參數指定的字符串(Ere 參數指定的擴展正則表達式出現在其中)中返回位置(字符形式),從 1 開始編號,或如果 Ere 參數不出現,則返回 0(零)。RSTART特殊變量設置爲返回值。RLENGTH 特殊變量設置爲匹配的字符串的長度,或如果未找到任何匹配,則設置爲 -1(負一)。 |
split( String, A, [Ere] ) |
將 String 參數指定的參數分割爲數組元素 A[1], A[2], . . ., A[n],並返回 n 變量的值。此分隔可以通過 Ere 參數指定的擴展正則表達式進行,或用當前字段分隔符(FS 特殊變量)來進行(如果沒有給出 Ere 參數)。除非上下文指明特定的元素還應具有一個數字值,否則 A 數組中的元素用字符串值來創建。 |
tolower( String ) |
返回 String 參數指定的字符串,字符串中每個大寫字符將更改爲小寫。大寫和小寫的映射由當前語言環境的LC_CTYPE 範疇定義。 |
toupper( String ) |
返回 String 參數指定的字符串,字符串中每個小寫字符將更改爲大寫。大寫和小寫的映射由當前語言環境的LC_CTYPE 範疇定義。 |
sprintf(Format, Expr, Expr, . . . ) |
根據 Format 參數指定的 printf 子例程格式字符串來格式化 Expr 參數指定的表達式並返回最後生成的字符串。 |
[root@localhost test]# awk 'BEGIN{info="this is test2015test!";gsub(/[0-9]+/,"!",info);print info}'
this is test!test!
在 info中查找滿足正則表達式,/[0-9]+/ 用””替換,並且替換後的值,賦值給info 未給info值,默認是$0
查找字符串(index使用)
[root@localhost test]# awk 'BEGIN{info="this is test2015test!";print index(info,"test")?"OK":"no found";}'
OK
正則表達式匹配查找(match使用)
[root@localhost test]# awk 'BEGIN{info="this is test2015test!";print match(info,/[0-9]+/)?"ok":"no found"};'
ok
截取字符串(substr使用)從第 4個 字符開始,截取10個長度字符串
[root@localhost test]# awk 'BEGIN{info="this is test2015test!";print substr(info,4,10)};'
s is test2
字符串分割(split使用)
[root@localhost test]# awk 'BEGIN{info="this is test2015test!";split(info,tA," ");print length(tA);for(k in tA){print k,tA[k];}}'
3
1 this
2 is
3 test2015test!
分割info,動態創建數組tA,這裏比較有意思,awk for …in 循環,是一個無序的循環。 並不是從數組下標1…n ,因此使用時候需要注意。
格式化字符串輸出(sprintf使用)
格式化字符串格式:
其中格式化字符串包括兩部分內容: 一部分是正常字符, 這些字符將按原樣輸出; 另一部分是格式化規定字符,以"%"開始, 後跟一個或幾個規定字符,用來確定輸出內容格式。
格式符 |
說明 |
%d |
十進制有符號整數 |
%u |
十進制無符號整數 |
%f |
浮點數 |
%s |
字符串 |
%c |
單個字符 |
%p |
指針的值 |
%e |
指數形式的浮點數 |
%x |
%X 無符號以十六進制表示的整數 |
%o |
無符號以八進制表示的整數 |
%g |
自動選擇合適的表示法 |
[root@localhost test]# awk 'BEGIN{n1=12.112;n2=-1.323;n3=1.234543;printf("%.2f,%.2u,%.2g,%X,%o\n",n1,n2,n3,n1,n1)}'
12.11,18446744073709551615,1.2,C,14
三、一般函數是:
函數 |
說明 |
close( Expression ) |
用同一個帶字符串值的 Expression 參數來關閉由 print 或 printf語句打開的或調用 getline 函數打開的文件或管道。如果文件或管道成功關閉,則返回 0;其它情況下返回非零值。如果打算寫一個文件,並稍後在同一個程序中讀取文件,則 close 語句是必需的。 |
system(Command ) |
執行 Command 參數指定的命令,並返回退出狀態。等同於system 子例程。 |
Expression | getline [ Variable ] |
從來自 Expression 參數指定的命令的輸出中通過管道傳送的流中讀取一個輸入記錄,並將該記錄的值指定給 Variable 參數指定的變量。如果當前未打開將 Expression 參數的值作爲其命令名稱的流,則創建流。創建的流等同於調用 popen 子例程,此時Command 參數取 Expression 參數的值且 Mode 參數設置爲一個是 r 的值。只要流保留打開且 Expression 參數求得同一個字符串,則對 getline 函數的每次後續調用讀取另一個記錄。如果未指定 Variable 參數,則 $0 記錄變量和 NF 特殊變量設置爲從流讀取的記錄。 |
getline [ Variable ] < Expression |
從 Expression 參數指定的文件讀取輸入的下一個記錄,並將Variable 參數指定的變量設置爲該記錄的值。只要流保留打開且Expression 參數對同一個字符串求值,則對 getline 函數的每次後續調用讀取另一個記錄。如果未指定 Variable 參數,則 $0 記錄變量和 NF 特殊變量設置爲從流讀取的記錄。 |
getline [ Variable ] |
將 Variable 參數指定的變量設置爲從當前輸入文件讀取的下一個輸入記錄。如果未指定 Variable 參數,則 $0 記錄變量設置爲該記錄的值,還將設置 NF、NR 和 FNR 特殊變量。 |
打開外部文件(close用法)
[root@localhost test]# awk 'BEGIN{while("cat /etc/passwd"|getline){print $0;};close("/etc/passwd")}'
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
逐行讀取外部文件(getline使用方法)
[root@localhost test]# awk 'BEGIN{while(getline < "/etc/passwd"){print $0;};close("/etc/passwd");}'
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
調用外部應用程序(system使用方法)
[root@localhost test]# awk 'BEGIN{b=system("cat a.log");print b}'
1,2
3,4
四、時間函數(計算時間差,時間的加減)
函數名 |
說明 |
mktime( YYYY MM DD HH MM SS[ DST]) |
生成時間格式 |
strftime([format [, timestamp]]) |
格式化時間輸出,將時間戳轉爲時間字符串 |
systime() |
得到時間戳,返回從1970年1月1日開始到當前時間(不計閏年)的整秒數 |
返回當前時間戳
[root@localhost test]# awk 'BEGIN{tt=systime();print tt;}'
oot@localhost test]# awk 'BEGIN{tt=mktime("2015 05 06");printf strftime("%c \n",tt);}'
Wed 31 Dec 1969 06:59:59 PM EST
strftime日期和時間格式說明符
格式 |
描述 |
%a |
星期幾的縮寫(Sun) |
%A |
星期幾的完整寫法(Sunday) |
%b |
月名的縮寫(Oct) |
%B |
月名的完整寫法(October) |
%c |
本地日期和時間 |
%d |
十進制日期 |
%D |
日期 08/20/99 |
%e |
日期,如果只有一位會補上一個空格 |
%H |
用十進制表示24小時格式的小時 |
%I |
用十進制表示12小時格式的小時 |
%j |
從1月1日起一年中的第幾天 |
%m |
十進制表示的月份 |
%M |
十進制表示的分鐘 |
%p |
12小時表示法(AM/PM) |
%S |
十進制表示的秒 |
%U |
十進制表示的一年中的第幾個星期(星期天作爲一個星期的開始) |
%w |
十進制表示的星期幾(星期天是0) |
%W |
十進制表示的一年中的第幾個星期(星期一作爲一個星期的開始) |
%x |
重新設置本地日期(08/20/99) |
%X |
重新設置本地時間(12:00:00) |
%y |
兩位數字表示的年(99) |
%Y |
當前月份 |
%Z |
時區(PDT) |
%% |
百分號(%) |
官方文檔
http://www.gnu.org/software/gawk/manual/gawk.html