網頁日誌分析項目

目錄

項目需求

數據分析

項目規劃

項目流程

項目展示


 

項目需求

當用戶進入公司web進行點擊,會觸發一系列的事件,這些事件對應着相應的日誌。我們需要收集用戶訪問日誌,進行清洗、儲存、展示。根據上面一系列操作我們可以對用戶的註冊人數、訪問人數、訪問深度、以及收歡迎的一些專題進行分析。

數據分析

樣例數據:

192.168.92.34-09/Dec/2019:14:00:03 +0800"GET /?uid=c05ee40bdbe097172d42c429a875198d&country= HTTP/1.1"200555"https://www.baidu.com""Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36""-"
192.168.92.30-09/Dec/2019:14:00:07 +0800"GET /?uid=d21269342374e876285a470b3d98f8bc&country=CN HTTP/1.1"200555"""Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0""-"
192.168.92.33-09/Dec/2019:14:00:10 +0800"GET /?uid=34b9c898c00058436f3483be7fc4c7e8&country= HTTP/1.1"200555"""Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0""-"
192.168.92.32-09/Dec/2019:14:00:18 +0800"GET /?uid=e234f04ca6d616cca9eeda430df853c7&country=US HTTP/1.1"200555"https://www.baidu.com""Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727; .NET CLR 3.0.30729; .NET CLR 3.5.30729; rv:11.0) like Gecko""-"
192.168.92.34-09/Dec/2019:14:00:18 +0800"GET /?uid=bbeb22f625107a24cef2eee179a14ee6&country=CN HTTP/1.1"200555"https://www.msn.cn/zh-cn""-""-"
192.168.92.32-09/Dec/2019:14:00:19 +0800"GET /?uid=4c23435f92cd987d982d02e7fc63565c&country= HTTP/1.1"200555"https://www.yahoo.com""-""-"
192.168.92.31-09/Dec/2019:14:00:20 +0800"GET /?uid=6f288475d5191e20c221b4e273c7859c&country=MM HTTP/1.1"200555"""-""-"
192.168.92.30-09/Dec/2019:14:00:21 +0800"GET /?uid=87b1a7a0ddbd6c46cf11899bc0d78b7d&country=CN HTTP/1.1"200555"http://www.google.cn""Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36""-"
192.168.92.33-09/Dec/2019:14:00:22 +0800"GET /?uid=bdbce86387dab2cfecc78669a6200f31&country=CN HTTP/1.1"200555"http://www.lycos.com""Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36""-"
192.168.92.32-09/Dec/2019:14:00:25 +0800"GET /?uid=752a2fb4d058f04e215372c97fe623fb&country=CN HTTP/1.1"200555"https://www.aol.com""Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36""-"
192.168.92.34-09/Dec/2019:14:00:25 +0800"GET /?uid=527e66793d2ff7865a2122297f5c44b1&country=CN HTTP/1.1"200555"https://www.baidu.com""Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0""-"
192.168.92.30-09/Dec/2019:14:00:25 +0800"GET /?uid=e234f04ca6d616cca9eeda430df853c7&country=CN HTTP/1.1"200555"""Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134""-"
192.168.92.32-09/Dec/2019:14:00:26 +0800"GET /?uid=1ddcd3ac3e6db860f810ed70997ac6a8&country= HTTP/1.1"200555"https://www.aol.com""Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36""-"
192.168.92.33-09/Dec/2019:14:00:32 +0800"GET /?uid=6ec27f18562b8166a6df83aefd940d72&country=RU HTTP/1.1"200555"http://www.lycos.com""Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727; .NET CLR 3.0.30729; .NET CLR 3.5.30729; rv:11.0) like Gecko""-"
192.168.92.34-09/Dec/2019:14:00:35 +0800"GET /?uid=fd3174f4e3f829a12b060f6c3738d908&country=CN HTTP/1.1"200555"http://www.lycos.com""Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0""-"
192.168.92.33-09/Dec/2019:14:00:41 +0800"GET /?uid=8ec0b505122295b81df5f56f71b6c19d&country=CN HTTP/1.1"200555"http://www.google.cn""Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0""-"

nginx日誌格式配置

$remote_addr^A$remote_user^A$time_local^A$request^A$status^A$body_bytes_sent^A$request_body^A$http_referer^A$http_user_agent^A$http_x_forwarded_fo
remote_addr【1】:哪個ip請求的。 數據清洗的時候,將ip轉化成具體的地區。或者用hive UDF 函數 ;

time_local【3】:本地請求時間。需要把英國格式轉換成標準格式。

request【4】:get提交的數據。 篩選請求目標url, 統計海牛部落首頁的最受歡迎top5, 海牛的topics 最受歡迎的top10;

request_body【7】:post提交的數據,由於作了脫敏處理,post提交的數據就不能處理了(POST請求的數據是帶密碼的,我們不能泄露密碼所以就省略了這部分的數據)。

http_referer【8】: 誰請求的。 是外部請求  還是內部請求

內部請求:正常的請求地址,應該是從 海牛學院的官網跳轉過來的

外部請求:需要具體分析,有可能是爬蟲

http_user_agent【9】:用戶代理,統計瀏覽器、移動端的使用情況, 統計爬蟲的種類。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章