awk分析nginx訪問日誌

博文參考地址:https://www.ibm.com/developerworks/cn/linux/l-cn-awk-httplog/

AWK 簡介

AWK 是一種“樣式掃描和處理語言”。它允許您創建簡短的程序,這些程序讀取輸入文件、爲數據排序、處理數據、對輸入執行計算以及生成報表。它的名稱取自於它的創始人 Alfred Aho、 Peter Weinberger 和 Brian Kernighan 姓氏的首個字母。

本文論述的 awk 命令主要指 Linux 操作系統中廣泛包含的內置程序 /bin/gawk,它是 Unix awk 程序的 GNU 版本。此命令主要負責讀入並運行 AWK 語言編寫的程序。在 Windows 平臺上可以使用 Cygwin 在模擬環境下運行 awk 命令。

基本上來說,awk 可以從輸入( 標準輸入,或一個或多個文件 )中是否存在指定模式的記錄( 即文本行 )。每次發現匹配時,就執行相關聯的動作( 例如寫入到標準輸出或外部文件 )。

AWK 語言基礎

爲了能理解 AWK 程序,我們下面概述其基本知識。AWK 程序可以由一行或多行文本構成,其中核心部分是包含一個模式和動作的組合。

 pattern { action }

模式( pattern ) 用於匹配輸入中的每行文本。對於匹配上的每行文本,awk 都執行對應的 動作( action )。模式和動作之間使用花括號隔開。awk 順序掃描每一行文本,並使用 記錄分隔符(一般是換行符)將讀到的每一行作爲 記錄,使用 域分隔符( 一般是空格符或製表符 ) 將一行文本分割爲多個 域, 每個域分別可以使用 $1, $2, … $n 表示。$1 表示第一個域,$2 表示第二個域,$n 表示第 n 個域。 $0 表示整個記錄。模式或動作都可以不指定,缺省模式的情況下,將匹配所有行。缺省動作的情況下,將執行動作 {print},即打印整個記錄。

使用 awk 分解出日誌中的信息

由於我們在 IBM HTTP Server 配置文件中指定了訪問日誌的固定格式,因此,我們可以輕易地使用 awk 解析,抽取我們需要的數據。

以下面的示例日誌爲例:

 202.189.63.115 - - [31/Aug/2012:15:42:31 +0800] "GET / HTTP/1.1" 200 1365 "-" 

 "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:15.0) Gecko/20100101 Firefox/15.0.1"

$0 就是整個記錄行

$1 就是訪問 IP ” 202.189.63.115”

$4 就是請求時間的前半部分 “[31/Aug/2012:15:42:31”

$5 就是請求時間的後半部分 “+0800]”

以此類推……

當我們使用默認的域分割符時,我們可以從日誌中解析出下面不同類型的信息:

 awk '{print $1}' access.log       # IP 地址  (%h) 

 awk '{print $2}' access.log       # RFC 1413 標識  (%l) 

 awk '{print $3}' access.log       # 用戶 ID  (%u) 

 awk '{print $4,$5}' access.log     # 日期和時間  (%t) 

 awk '{print $7}' access _log      #  URI (%>s) 

 awk '{print $9}' access _log      # 狀態碼 (%>s) 

 awk '{print $10}' access _log     # 響應大小  (%b)

我們不難發現,僅使用默認的域分隔符,不方便解析出請求行、引用頁和瀏覽器類型等其他信息,因爲這些信息之中包含不確定個數的空格。因此,我們需要把域分隔符修改爲 “ ,就能夠輕鬆讀出這些信息。

 awk -F\" '{print $2}' access.log        # 請求行 (%r) 

 awk -F\" '{print $4}' access.log        # 引用頁 

 awk -F\" '{print $6}' access.log        # 瀏覽器

注意:這裏爲了避免 Unix/Linux Shell 誤解 “ 爲字符串開始,我們使用了反斜槓,轉義了 “ 。

現在,我們已經掌握了 awk 的基本知識,以及它是怎樣解析日誌的。 下面我們做好準備開始到真實的世界裏開始“冒險”了。

回頁首

使用 awk 場景舉例

統計瀏覽器類型

如果我們想知道那些類型的瀏覽器訪問過網站,並按出現的次數倒序排列,我可以使用下面的命令:

 awk -F\" '{print $6}' access.log | sort | uniq -c | sort -fr

此命令行首先解析出瀏覽器域,然後使用管道將輸出作爲第一個 sort 命令的輸入。第一個 sort 命令主要是爲了方便 uniq 命令統計出不同瀏覽器出現的次數。最後一個 sort 命令將把之前的統計結果倒序排列並輸出。

發現系統存在的問題

我們可以使用下面的命令行,統計服務器返回的狀態碼,發現系統可能存在的問題。

 awk '{print $9}' access.log | sort | uniq -c | sort

正常情況下,狀態碼 200 或 30x 應該是出現次數最多的。40x 一般表示客戶端訪問問題。50x 一般表示服務器端問題。

下面是一些常見的狀態碼:

200 - 請求已成功,請求所希望的響應頭或數據體將隨此響應返回。

206 - 服務器已經成功處理了部分 GET 請求

301 - 被請求的資源已永久移動到新位置

302 - 請求的資源現在臨時從不同的 URI 響應請求

400 - 錯誤的請求。當前請求無法被服務器理解

401 - 請求未授權,當前請求需要用戶驗證。

403 - 禁止訪問。服務器已經理解請求,但是拒絕執行它。

404 - 文件不存在,資源在服務器上未被發現。

500 - 服務器遇到了一個未曾預料的狀況,導致了它無法完成對請求的處理。

503 - 由於臨時的服務器維護或者過載,服務器當前無法處理請求。

HTTP 協議狀態碼定義可以參閱:Hypertext Transfer Protocol -- HTTP/1.1

有關狀態碼的 awk 命令示例:

1. 查找並顯示所有狀態碼爲 404 的請求

 awk '($9 ~ /404/)' access.log

2. 統計所有狀態碼爲 404 的請求

 awk '($9 ~ /404/)' access.log | awk '{print $9,$7}' | sort

現在我們假設某個請求 ( 例如 : URI: /path/to/notfound ) 產生了大量的 404 錯誤,我們可以通過下面的命令找到這個請求是來自於哪一個引用頁,和來自於什麼瀏覽器。

 awk -F\" '($2 ~ "^GET /path/to/notfound "){print $4,$6}' access.log

追查誰在盜鏈網站圖片

系統管理員有時候會發現其他網站出於某種原因,在他們的網站上使用保存在自己網站上的圖片。如果您想知道究竟是誰未經授權使用自己網站上的圖片,我們可以使用下面的命令:

 awk -F\" '($2 ~ /\.(jpg|gif|png)/ && $4 !~ /^http:\/\/www\.example\.com/)\ 

 {print $4}' access.log \ | sort | uniq -c | sort

注意:使用前,將 www.example.com 修改爲自己網站的域名。

使用 ” 分解每一行;

請求行中必須包括 “.jpg” 、”.gif” 或 ”.png”;

引用頁不是以您的網站域名字符串開始( 在此例中,即 www.example.com );

顯示出所有引用頁,並統計出現的次數。

與訪問 IP 地址相關的命令

統計共有多少個不同的 IP 訪問:

 awk '{print $1}' access.log |sort|uniq|wc – l

統計每一個 IP 訪問了多少個頁面:

 awk '{++S[$1]} END {for (a in S) print a,S[a]}' log_file

將每個 IP 訪問的頁面數進行從小到大排序:

 awk '{++S[$1]} END {for (a in S) print S[a],a}' log_file | sort -n

查看某一個 IP(例如 202.106.19.100 )訪問了哪些頁面:

 grep ^202.106.19.100 access.log | awk '{print $1,$7}'

統計 2012 年 8 月 31 日 14 時內有多少 IP 訪問 :

awk '{print $4,$1}' access.log | grep 31/Aug/2012:14 | awk '{print $2}'| sort | uniq | \

wc -l

統計訪問最多的前十個 IP 地址

 awk '{print $1}' access.log |sort|uniq -c|sort -nr |head -10

與響應頁面大小的命令

列出傳輸大小最大的幾個文件

 cat access.log |awk '{print $10 " " $1 " " $4 " " $7}'|sort -nr|head -100

列出輸出大於 204800 byte ( 200kb) 的頁面以及對應頁面發生次數

 cat access.log |awk '($10 > 200000){print $7}'|sort -n|uniq -c|sort -nr|head -100

與頁面響應時間相關的命令

如果日誌最後一列記錄的是頁面文件傳輸時間 (%T),例如我們可以自定義日誌格式爲:

 LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\" %T" combined

可以使用下面的命令統計出所有響應時間超過 3 秒的日誌記錄。

 awk '($NF > 3){print $0}' access.log

注意:NF 是當前記錄中域的個數。$NF 即最後一個域。

列出相應時間超過 5 秒的請求

 awk '($NF > 5){print $0}' access.log | awk -F\" '{print $2}' |sort -n| 

 uniq -c|sort -nr|head -20


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章