2015百度一道面試題引發的思考(shell腳本和網絡)

前言

        百度2面出了這樣一題(前篇博文求職之路中有提到),給你一個log文件,文件中有3列,分別爲ip,訪問時間, 和訪問內容。你用shell腳本找出訪問頻率最高的10個IP。

        因爲平時用shell腳本也就是配置些文件,自動化部署一些軟件,突然遇到這個問題。還真不知道怎麼弄呢,反正知道要排序,當時就沒答出來。回來在網上找了下,網上有很多類似的解答。下面給出幾種解答方式,一一道來啊。

一、log格式分析

        就利用ubuntu httpserver 安裝配置(apache+mysql+php) 中部署的httpsever產生的log文件,目錄爲:/var/log/apache2/access.log .log格式如圖1所示


圖1 httpseverlog格式

二、解答

解答一

shell腳本:cat   /var/log/apache2/access.log | awk -F -  '{print $1}' | sort | uniq -c | sort -rn

或者直接:awk -F -  '{print $1}' /var/log/apache2/access.log | sort | uniq -c | sort -rn

awk -F -  '{print $1}'  是一行中以-爲分隔符打印第一列;

sort  排序(默認是升序,降序用sort  -r);

uniq -c 計數並去重(僅去重用uniq即可)

sort -rn 以計數降序排序

結果如圖2所示第一列爲訪問次數 第二列是ip;


圖2  找出訪問量最大的幾個IP

解答二

shell 腳本:cut  -d- -f 1 /var/log/apache2/access.log |sort| uniq -c | sort -rn | head -10

cut -d- -f 1 /var/log/apache2/access.log  其中-d-表示以 - 爲分隔符; -f 1表示打印第一列

後面的和解答1都一樣 無需解釋,結果和解答一完全一樣。


三、補充

下面再補充一點啊

1)列出某一ip訪問了哪些頁面

grep ^223.3.52.172  /var/log/apache2/access.log | awk '{print $1,$7}' | head -30

說明^223.3.52.172 表示以該ip開始的一行,後面的上面都解釋過了

結果如圖3所示


圖3  某一ip訪問過的頁面


某一頁面被訪問的次數:grep "/file1"  /var/log/apache2/access.log  | wc -l

ip訪問總量 :awk -F -  '{print $1}'  /var/log/apache2/access.log | wc -l 

參考 http://www.jb51.net/article/53954.htm學習並列舉一下哈

1、查看當天有多少個IP訪問:

awk '{print $1}' log_file|sort|uniq|wc -l

2、查看某一個頁面被訪問的次數;

grep "/index.php" log_file | wc -l

3、查看每一個IP訪問了多少個頁面:

awk '{++S[$1]} END {for (a in S) print a,S[a]}' log_file

4、將每個IP訪問的頁面數進行從小到大排序:

awk '{++S[$1]} END {for (a in S) print S[a],a}' log_file | sort -n

5、查看某一個IP訪問了哪些頁面:

grep ^111.111.111.111 log_file| awk '{print $1,$7}'

6、去掉搜索引擎統計當天的頁面:

awk '{print $12,$1}' log_file | grep ^\"Mozilla | awk '{print$2}' |sort | uniq | wc -l

7、查看2009年6月21日14時這一個小時內有多少IP訪問:

awk '{print $4,$1}' log_file | grep 21/Jun/2009:14 | awk '{print$2}'| sort | uniq | wc -l





發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章