linux報告生成器之awk

awk就是把文件逐行的讀入,以空格爲默認分隔符將每行切片,切開的部分再進行各種分析處理。

模式

  • /正則表達式/:使用通配符的擴展集。
  • 關係表達式:使用運算符進行操作,可以是字符串或數字的比較測試
  • 模式匹配表達式:用運算符~(匹配)和~!(不匹配)。
  • BEGIN語句塊,pattern語句塊,END語句塊

使用方法:

awk '{pattern + action}' {filenames}

pattern表示AWK在數據中查找的內容,而action是在找到匹配內容時所執行的一系列命令。花括號{}不需要再程序中始終出現,但他們用於根據特定對一系列指令進行分組。pattern就是要表示的正則表達式,用斜槓括起來。
awk語言的最基本功能是在文件或者字符串中基於指定瀏覽規則和抽取信息,awk抽取信息後,才能進行其他文本操作。完整的awk腳本通常用於格式化文本文件中的信息。
通常,awk是以文件的一行爲處理單位的。awk每接收文件的一行,然後執行相應的命令,來處理文本。

入門實例

這裏寫圖片描述
awk工作流程:讀入有‘\n’換行符分割的一條記錄,然後按指定的列分割符劃分列,填充列,0 1表示第一列,nntab 1表示登錄用戶。

只顯示/etc/passwd的賬戶:-F: 指定分隔符爲:
這裏寫圖片描述

顯示/etc/passwd的賬戶和對應的shell,賬戶與shell之間以tab鍵分割
這裏寫圖片描述

顯示/etc/passwd的賬戶和對應的shell,賬戶和shell之間以逗號分割,而且在所有行添加列名name,shell,在最後一行添加“blue,/bin/nosh”。
這裏寫圖片描述
先執行BEGIN,然後讀取文件,讀入有\n換行符的一條記錄,然後將記錄按指定的分隔符讀取,隨後開始執行模式所對應的動作。接着讀入第二條記錄。。。。最後執行END操作。

搜索/etc/passwd有root關鍵字的所有行
這裏寫圖片描述
這種是pattern的使用示例,匹配了pattern(這裏是root)的行纔會執行action(沒有指定action,默認輸出每行的內容)。搜索支持正則,例如找root開頭的行: awk -F: ‘/^root/’ /etc/passwd

搜索/etc/passwd有root關鍵字的所有行,並顯示對應的shell
這裏寫圖片描述

awk內置變量

FILENAME  瀏覽的文件名
FNR    瀏覽文件的記錄數
FS     設置輸入域分割符,等價於命令行 -F選項
NF     瀏覽記錄的域的個數,列數
NR     已讀的記錄數,行數
OFS    輸出域分隔符
ORS    輸出記錄分隔符
RS     控制記錄分隔符

統計/etc/passwd:文件名,每行的行號,每列的列數,對應的完整行內容:
這裏寫圖片描述

使用printf替代print,可以讓代碼更加簡潔,易讀

awk -F: '{printf("filename:%10s,linenumber:%s,columns:%s,linecontent:%s\n",FILENAME,NR,NF,$0)}' /etc/passwd

print和printf

awk中同時提供了print和printf兩種打印輸出的函數。
其中print函數的參數可以是變量,數值或者字符串。字符串必須用雙引號引用,參數用逗號分隔。如果沒有都好,參數就串聯在一起而無法區分。這裏,逗號的作用與輸出文件的分隔符的作用是一樣的,只是後者是空格而以。
printf函數,其用法和C語言中的printf基本相似,可以格式化字符串,輸出複雜時,printf更加好用,代碼更易懂。

awk編程

除了awk的內置變量,awk還可以自定義變量。
統計/etc/passwd的賬戶人數
這裏寫圖片描述
如果沒有初始化,count的值默認是0,但是妥當的做法還是初始化爲0;
count是自定義變量,之前的action{}裏都是隻有一個print,其實print只是一個語句,而action{}可以有多個語句,以;分隔。

統計某個文件夾下的文件佔用的字節數

~]# ls -l | awk 'BEGIN{size=0;}{size = size+$5;} END{print"[end] size is",size}'
[end] size is 70350

如果以M爲單位顯示

ls -l | awk 'BEGIN{size=0;} {size = size+$5;} END{print "[end]size is ",size/1024/1024,"M"}'
[end]size is 23.4523M

注意不包括子文件夾的子目錄

條件語句

if (expression) {
    statement;
} else {
    statement;
}

統計某個文件夾下的文件佔用的字節數,過濾4096大小的文件(一般都是文件夾)

~]# ls -l | awk 'BEGIN{size=0;print"[start]size is",size} {if($5!=4096){size=size+$5;}} END{print"[end]size is",size/1024/1024,"M"}'
[start]size is 0
[end]size is 0.067091 M

數組

因爲awk中數組的下表可以是字母和數字,數組的下標通常被稱爲關鍵字(key)。值和關鍵字都存儲在內部的一張針對key/value應用hash的表格裏。由於hash不是順序存儲,因此在顯示數組內容時會發現,他們並不是按照你預料的順序顯示出來的。數組和變量一樣,都是在使用時自動創建的,awk也同樣會自動判斷其存儲的是數字還是字符串。一般而言,awk中的數組用來從記錄中收集信息,可以用於計算總和,統計單詞以及跟蹤模板被匹配的次數等。

~]# awk -F: 'BEGIN{count=0;} {name[count]=$1;count++} END{for (i=0; i<NR; i++) print i,name[i]}' /etc/passwd
0 root
1 bin
2 daemon
3 adm
4 lp

只查看/etc/passwd文件內第20行到第30行的內容

~]# awk '{if(NR>=20 && NR<=30) print $1}' /etc/passwd
unbound:x:996:993:Unbound
colord:x:995:992:User
usbmuxd:x:113:113:usbmuxd
geoclue:x:994:991:User
saslauth:x:993:76:Saslauthd
libstoragemgmt:x:992:989:daemon
abrt:x:173:173::/etc/abrt:/sbin/nologin
setroubleshoot:x:991:988::/var/lib/setroubleshoot:/sbin/nologin
rpc:x:32:32:Rpcbind
rtkit:x:172:172:RealtimeKit:/proc:/sbin/nologin
chrony:x:990:987::/var/lib/chrony:/sbin/nologin

已知test.txt文件內容爲:

[root@Gin scripts]# cat test.txt
I am Poe,my qq is 33794712

請從該文件中過濾出’Poe’字符串與33794712,最後輸出的結果爲:Poe 33794712

[root@Gin scripts]# awk -F '[ ,]+' '{print $3" "$7}' test.txt
Poe 33794712

http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858470.html
https://www.cnblogs.com/ginvip/p/6352157.html
https://blog.csdn.net/shuizhizhiyin/article/details/52421685

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章