linux-awk

awk工作流程是這樣的:讀入有'\n'換行符分割的一條記錄,然後將記錄按指定的域分隔符劃分域,填充域,$0則表示所有域,$1表示第一個域,$n表示第n個域。默認域分隔符是"空白鍵" "[tab]",所以$1表示登錄用戶,$3表示登錄用戶ip,以此類推。


[root@localhost test]# head /etc/passwd|awk -F ':' '{print $1}'

root

bin

daemon

adm

lp

sync

shutdown

halt

mail

uucp


如果只是顯示/etc/passwd的賬戶和賬戶對應的shell,而賬戶與shell之間以tab鍵分割


[root@localhost test]# head  /etc/passwd|awk -F ':' '{print $1"\t"$6}'

root    /root

bin     /bin

daemon  /sbin

adm     /var/adm

lp      /var/spool/lpd

sync    /sbin

shutdown        /sbin

halt    /sbin

mail    /var/spool/mail

uucp    /var/spool/uucp



如果只是顯示/etc/passwd的賬戶和賬戶對應的shell,而賬戶與shell之間以逗號分割,而且在所有行添加列名name,shell,在最後一行添加"blue,/bin/nosh"

[root@localhost test]# head  /etc/passwd|awk -F ':' 'BEGIN {print "name,shell"} {print $1","$7} END {print "blush,/bin/nosh"}'

name,shell

root,/bin/bash

bin,/sbin/nologin

daemon,/sbin/nologin

adm,/sbin/nologin

lp,/sbin/nologin

sync,/bin/sync

shutdown,/sbin/shutdown

halt,/sbin/halt

mail,/sbin/nologin

uucp,/sbin/nologin

blush,/bin/nosh



搜索/etc/passwdroot關鍵字的所有行

[root@localhost test]# awk -F : '/root/' /etc/passwd

root:x:0:0:root:/root:/bin/bash

operator:x:11:0:operator:/root:/sbin/nologin


搜索支持正則,例如找root開頭的

[root@localhost test]# awk -F: '/^root/' /etc/passwd

root:x:0:0:root:/root:/bin/bash



awk內置變量

awk有許多內置變量用來設置環境信息,這些變量可以被改變,下面給出了最常用的一些變量。

copycode.gif

ARGC               命令行參數個數

ARGV               命令行參數排列

ENVIRON            支持隊列中系統環境變量的使用

FILENAME           awk瀏覽的文件名

FNR                瀏覽文件的記錄數

FS                 設置輸入域分隔符,等價於命令行 -F選項

NF                 瀏覽記錄的域的個數

NR                 已讀的記錄數

OFS                輸出域分隔符

ORS                輸出記錄分隔符

RS                 控制記錄分隔符

copycode.gif

 此外,$0變量是指整條記錄。$1表示當前行的第一個域,$2表示當前行的第二個域,......以此類推。



 變量和賦值

除了awk的內置變量,awk還可以自定義變量。

下面統計/etc/passwd的賬戶人數


awk 'BEGIN {count=0;print "[start]user count is ", count} {count=count+1;print $0;} END{print "[end]user count is ", count}' /etc/passwd

[start]user count is  0

root:x:0:0:root:/root:/bin/bash

...

[end]user count is  40




統計某個文件夾下的文件佔用的字節數

ls -l |awk'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size}'

[end]size is  8657198



如果以M爲單位顯示:

ls -l |awk'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size/1024/1024,"M"}' 

[end]size is  8.25889 M

注意,統計不包括文件夾的子目錄。


drwxr-xr-x. 2 root root 4096 Aug 14 10:15 tttt  (4094 的是文件夾)


統計某個文件夾下的文件佔用的字節數,過濾4096大小的文件(一般都是文件夾):

ls -l |awk'BEGIN {size=0;print "[start]size is ", size} {if($5!=4096){size=size+$5;}} END{print "[end]size is ", size/1024/1024,"M"}' 

[end]size is  8.22339 M



數組

  因爲awk中數組的下標可以是數字和字母,數組的下標通常被稱爲關鍵字(key)。值和關鍵字都存儲在內部的一張針對key/value應用hash的表格裏。由於hash不是順序存儲,因此在顯示數組內容時會發現,它們並不是按照你預料的順序顯示出來的。數組和變量一樣,都是在使用時自動創建的,awk也同樣會自動判斷其存儲的是數字還是字符串。一般而言,awk中的數組用來從記錄中收集信息,可以用於計算總和、統計單詞以及跟蹤模板被匹配的次數等等。

 

顯示/etc/passwd的賬戶

copycode.gif

awk -F ':''BEGIN {count=0;} {name[count] = $1;count++;}; END{for (i = 0; i < NR; i++) print i, name[i]}' /etc/passwd

0 root

1 daemon

2 bin

3 sys

4 sync

5 games

......




awk-內置函數使用及說明

一、算術函數:

以下算術函數執行與 C 語言中名稱相同的子例程相同的操作:

函數名

說明

atan2( y, x )

返回 y/x 的反正切。

cos( x )

返回 x 的餘弦;是弧度。

sin( x )

返回 x 的正弦;是弧度。

exp( x )

返回 x 冪函數。

log( x )

返回 x 的自然對數。

sqrt( x )

返回 x 平方根。

int( x )

返回 x 的截斷至整數的值。

rand( )

返回任意數字 n,其中 0 <= n < 1

srand( [Expr] )

 rand 函數的種子值設置爲 Expr 參數的值,或如果省略 Expr 參數則使用某天的時間。返回先前的種子值。

 

[root@localhost test]# awk 'BEGIN{OFMT="%.3f";fs=sin(1);fe=exp(10);fl=log(10);fi=int(3.1415);print fs,fe,fl,fi;}'

0.841 22026.466 2.303 3


OFMT 設置輸出數據格式是保留3位小數


獲得隨機數:

[root@localhost test]# awk 'BEGIN{srand();fr=int(100*rand());print fr;}'

44

[root@localhost test]# awk 'BEGIN{srand();fr=int(100*rand());print fr;}'

38


二、字符串函數是:

函數

說明

gsub( Ere, Repl, [ In ] )

全局替換,除了正則表達式所有具體值被替代這點,它和sub 函數完全一樣地執行,。

sub( Ere, Repl, [ In ] )

gensub(Ere, Repl, h, [In])

sub:第一次出現的替換,用 Repl 參數指定的字符串替換 In 參數指定的字符串中的由 Ere 參數指定的擴展正則表達式的第一個具體值。sub 函數返回替換的字符數量。出現在 Repl參數指定的字符串中的 &(和符號)由 In 參數指定的與Ere 參數的指定的擴展正則表達式匹配的字符串替換。如果未指定 In 參數,缺省值是整個記錄($0 記錄變量)。

gensub:類似於sub,但是h參數可以控制替換的位置,g/G全局替換,h爲數字表示替換第幾次出現的位置,具體查看man awk

index( String1, String2 )

在由 String1 參數指定的字符串(其中有出現 String2 指定的參數)中,返回位置,從 1 開始編號。如果 String2參數不在 String1 參數中出現,則返回 0(零)。

length [(String)]

返回 String 參數指定的字符串的長度(字符形式)。如果未給出 String 參數,則返回整個記錄的長度($0 記錄變量)。

blength [(String)]

返回 String 參數指定的字符串的長度(以字節爲單位)。如果未給出 String 參數,則返回整個記錄的長度($0 記錄變量)。

substr( String, M, [ N ] )

返回具有 N 參數指定的字符數量子串。子串從 String 參數指定的字符串取得,其字符以 M 參數指定的位置開始。M參數指定爲將 String 參數中的第一個字符作爲編號 1。如果未指定 N 參數,則子串的長度將是 M 參數指定的位置到String 參數的末尾 的長度。

match( String, Ere )

可以使用'~'

$0 ~ /partern/

 String 參數指定的字符串(Ere 參數指定的擴展正則表達式出現在其中)中返回位置(字符形式),從 1 開始編號,或如果 Ere 參數不出現,則返回 0(零)。RSTART特殊變量設置爲返回值。RLENGTH 特殊變量設置爲匹配的字符串的長度,或如果未找到任何匹配,則設置爲 -1(負一)。

split( String, A, [Ere] )

 String 參數指定的參數分割爲數組元素 A[1], A[2], . . ., A[n],並返回 n 變量的值。此分隔可以通過 Ere 參數指定的擴展正則表達式進行,或用當前字段分隔符(FS 特殊變量)來進行(如果沒有給出 Ere 參數)。除非上下文指明特定的元素還應具有一個數字值,否則 A 數組中的元素用字符串值來創建。

tolower( String )

返回 String 參數指定的字符串,字符串中每個大寫字符將更改爲小寫。大寫和小寫的映射由當前語言環境的LC_CTYPE 範疇定義。

toupper( String )

返回 String 參數指定的字符串,字符串中每個小寫字符將更改爲大寫。大寫和小寫的映射由當前語言環境的LC_CTYPE 範疇定義。

sprintf(Format, Expr, Expr, . . . )

根據 Format 參數指定的 printf 子例程格式字符串來格式化 Expr 參數指定的表達式並返回最後生成的字符串。



[root@localhost test]# awk 'BEGIN{info="this is test2015test!";gsub(/[0-9]+/,"!",info);print info}'

this is test!test!

 info中查找滿足正則表達式,/[0-9]+/ ””替換,並且替換後的值,賦值給info 未給info值,默認是$0


查找字符串(index使用)

[root@localhost test]# awk 'BEGIN{info="this is test2015test!";print index(info,"test")?"OK":"no found";}'

OK


正則表達式匹配查找(match使用)

[root@localhost test]# awk 'BEGIN{info="this is test2015test!";print match(info,/[0-9]+/)?"ok":"no found"};'

ok


截取字符串(substr使用)從第 4 字符開始,截取10個長度字符串

[root@localhost test]# awk 'BEGIN{info="this is test2015test!";print substr(info,4,10)};'

s is test2


字符串分割(split使用)

[root@localhost test]# awk 'BEGIN{info="this is test2015test!";split(info,tA," ");print length(tA);for(k in tA){print k,tA[k];}}'

3

1 this

2 is

3 test2015test!

分割info,動態創建數組tA,這裏比較有意思,awk for …in 循環,是一個無序的循環。 並不是從數組下標1…n ,因此使用時候需要注意。



格式化字符串輸出(sprintf使用)

格式化字符串格式:

其中格式化字符串包括兩部分內容一部分是正常字符這些字符將按原樣輸出另一部分是格式化規定字符,"%"開始後跟一個或幾個規定字符,用來確定輸出內容格式。




格式符

說明

%d

十進制有符號整數

%u

十進制無符號整數

%f

浮點數

%s

字符串

%c

單個字符

%p

指針的值

%e

指數形式的浮點數

%x

%X 無符號以十六進制表示的整數

%o

無符號以八進制表示的整數

%g

自動選擇合適的表示法



[root@localhost test]# awk 'BEGIN{n1=12.112;n2=-1.323;n3=1.234543;printf("%.2f,%.2u,%.2g,%X,%o\n",n1,n2,n3,n1,n1)}'

12.11,18446744073709551615,1.2,C,14


三、一般函數是:

函數

說明

close( Expression )

用同一個帶字符串值的 Expression 參數來關閉由 print  printf語句打開的或調用 getline 函數打開的文件或管道。如果文件或管道成功關閉,則返回 0;其它情況下返回非零值。如果打算寫一個文件,並稍後在同一個程序中讀取文件,則 close 語句是必需的。

system(Command )

執行 Command 參數指定的命令,並返回退出狀態。等同於system 子例程。

Expression | getline [ Variable ]

從來自 Expression 參數指定的命令的輸出中通過管道傳送的流中讀取一個輸入記錄,並將該記錄的值指定給 Variable 參數指定的變量。如果當前未打開將 Expression 參數的值作爲其命令名稱的流,則創建流。創建的流等同於調用 popen 子例程,此時Command 參數取 Expression 參數的值且 Mode 參數設置爲一個是 r 的值。只要流保留打開且 Expression 參數求得同一個字符串,則對 getline 函數的每次後續調用讀取另一個記錄。如果未指定 Variable 參數,則 $0 記錄變量和 NF 特殊變量設置爲從流讀取的記錄。

getline [ Variable ] < Expression

 Expression 參數指定的文件讀取輸入的下一個記錄,並將Variable 參數指定的變量設置爲該記錄的值。只要流保留打開且Expression 參數對同一個字符串求值,則對 getline 函數的每次後續調用讀取另一個記錄。如果未指定 Variable 參數,則 $0 記錄變量和 NF 特殊變量設置爲從流讀取的記錄。

getline [ Variable ]

 Variable 參數指定的變量設置爲從當前輸入文件讀取的下一個輸入記錄。如果未指定 Variable 參數,則 $0 記錄變量設置爲該記錄的值,還將設置 NFNR  FNR 特殊變量。

 

打開外部文件(close用法)

[root@localhost test]# awk 'BEGIN{while("cat /etc/passwd"|getline){print $0;};close("/etc/passwd")}'

root:x:0:0:root:/root:/bin/bash

bin:x:1:1:bin:/bin:/sbin/nologin

daemon:x:2:2:daemon:/sbin:/sbin/nologin



逐行讀取外部文件(getline使用方法)

[root@localhost test]# awk 'BEGIN{while(getline < "/etc/passwd"){print $0;};close("/etc/passwd");}'

root:x:0:0:root:/root:/bin/bash

bin:x:1:1:bin:/bin:/sbin/nologin


調用外部應用程序(system使用方法)

[root@localhost test]# awk 'BEGIN{b=system("cat a.log");print b}'

1,2

3,4


四、時間函數(計算時間差,時間的加減)

 

函數名

說明

mktime( YYYY MM DD HH MM SS[ DST])

生成時間格式

strftime([format [, timestamp]])

格式化時間輸出,將時間戳轉爲時間字符串 
具體格式,見下表.

systime()

得到時間戳,返回從197011日開始到當前時間(不計閏年)的整秒數


返回當前時間戳

[root@localhost test]# awk 'BEGIN{tt=systime();print tt;}'


oot@localhost test]# awk 'BEGIN{tt=mktime("2015 05 06");printf strftime("%c \n",tt);}'

Wed 31 Dec 1969 06:59:59 PM EST 



strftime日期和時間格式說明符

格式

描述

%a

星期幾的縮寫(Sun)

%A

星期幾的完整寫法(Sunday)

%b

月名的縮寫(Oct)

%B

月名的完整寫法(October)

%c

本地日期和時間

%d

十進制日期

%D

日期 08/20/99

%e

日期,如果只有一位會補上一個空格

%H

用十進制表示24小時格式的小時

%I

用十進制表示12小時格式的小時

%j

11日起一年中的第幾天

%m

十進制表示的月份

%M

十進制表示的分鐘

%p

12小時表示法(AM/PM)

%S

十進制表示的秒

%U

十進制表示的一年中的第幾個星期(星期天作爲一個星期的開始)

%w

十進制表示的星期幾(星期天是0)

%W

十進制表示的一年中的第幾個星期(星期一作爲一個星期的開始)

%x

重新設置本地日期(08/20/99)

%X

重新設置本地時間(120000)

%y

兩位數字表示的年(99)

%Y

當前月份

%Z

時區(PDT)

%%

百分號(%)

 

官方文檔

http://www.gnu.org/software/gawk/manual/gawk.html



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章