聊聊AWK命令的那些事


作爲一個大數據開發,先來一個我比較喜歡的面試題。

對於下面的nginx日誌access.log,用腳本分析出訪問ip的Top 10。
其實這個題不難,但是考察了幾個常用的shell 命令,awk、uniq、sort、head,我覺得對於做大數據開發、運維、數倉等來說都是應該必備的。


2018-11-20T23:37:40+08:00 119.15.90.30 - "GET /free.php?proxy=out_hp&sort=&page=1 HTTP/1.1" "/free.php" - 200 0.156 362 6849/7213 TLSv1.2 ECDHE-RSA-AES128-GCM-SHA256 - - - "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E; LBBROWSER)"
2018-11-20T23:37:44+08:00 117.30.95.62 - "GET /partner.php HTTP/1.1" "/partner.php" - 200 0.016 457 6534/6956 TLSv1.2 ECDHE-RSA-AES128-GCM-SHA256 - https://blog.csdn.net/ithomer/article/details/6566739 - "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
2018-11-20T23:37:44+08:00 117.30.95.62 - "GET /css/bootstrap.min.css HTTP/1.1" "/css/bootstrap.min.css" - 200 0.045 398 19402/19757 TLSv1.2 ECDHE-RSA-AES128-GCM-SHA256 - https://proxy.mimvp.com/partner.php - "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
2018-11-20T23:37:44+08:00 117.30.95.62 - "GET /css/hint.min.css HTTP/1.1" "/css/hint.min.css" - 200 0.000 393 1635/1989 TLSv1.2 ECDHE-RSA-AES128-GCM-SHA256 - https://proxy.mimvp.com/partner.php - "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
 

來上答案

 cat access.log | awk '{print $2}'| uniq -c | sort -k1 -nr| head -10

在這裏插入圖片描述
其實這個問題還有很多變種,比如除了腳本,用你最熟悉的語言寫出來,還有如果文件過大,超過了內存限制,怎麼處理。不過這些都是題外話了,我們今天主要講一下awk在工作中的一些簡單的應用。

其實awk的功能非常強大,不過今天我們主要來講講在我們的工作中比較常用的awk用法。


awk '{[pattern] action}' {filenames}

切割文件

-F 指定拆分文件的分隔符,默認是空格或者 \t
比如上面的日誌我們想獲取第二列的ip地址,我們可以這樣寫

awk -F ' ' '{print $2}'  access.log 

空格我們是可以不用寫的,我這裏寫出來做一個示範。

其實還有一種特殊字符,比如hive中默認分隔符是0x01,這種的使用awk怎麼寫呢?

awk -F '\\001' '{ print $1 }' abcd.txt

內置變量的使用

  • nFn 由 -F 參數指定的分隔符切割之後,n用於打印出來第幾個字段,索引從1開始。
  • $0 用於打印出整行的字段.
  • NF 每行數據切分之後,有多少列,比如我們可以用print $NF 來打印出最後一列

有一些時候我們可以用awk 截取其中的某幾個字段拼接出來我們想要的一些語句。
比如我們想截取上面access.log裏面的ip字段,然後生成一些sql,插入到數據庫。


awk '{print "insert into mytable(ip) values('\''"$2"'\'');"}'  access.log > /tmp/ip.sql

在這裏插入圖片描述
有人會問,這種場景一般什麼時候會用呢,比如你有一萬條或者更多的數據,你完全可以寫一個sql來插入,但是如果是數量太多的話,一次性寫入太多數據,會導致鎖表,這個時候其他人就沒法插入了,如果是線上的生產環境就更不允許了,所以對於一些類似的操作,我們可以拆分出多個sql來一個個的執行,這樣單個sql鎖表的時間就會減少,避免長時間鎖錶帶來的數據庫不可用。

正則匹配

有時候我們只想打印出來一些我們想要的列,我們可以通過正則匹配來做。

比如我們想打印出來上面的access.log中117開頭的ip,可以這樣做.

awk '$2 ~ /^117/ {print $2}' access.log 

類sql功能

其實awk還可以幫我們實現一些簡單的類似sql的功能,我們也簡單說一下。

比如我們有一個下面的學生表

id 班級 姓名
id class name

1 1班 張三
2 2班 李四
3 1班 王五
4 3班 趙六

比如我們想統計每個班級有多少同學,可以使用如下命令

awk '{a[$2]++} END {for(i in a){print i"人數 : "a[i]}}' student.txt

我們定義了一個類似map的變量a,key是班級名稱,也就是第二列,value值是每個班級對應的人數,最後通過一個for循環輸出。

在這裏插入圖片描述
其實awk還有非常多、非常強大的功能,但是對於我們工作中我覺得用處並不大,這裏就不着重介紹了,感興趣的朋友可以網上找一些相關的資料。

更多精彩內容,歡迎關注我的公衆號[大數據技術與應用實戰],一起成長.
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章