通過用戶日誌分析理解數據處理流程

注:圖片如果損壞,點擊文章鏈接:https://www.toutiao.com/i6625473586012357123/

 

用戶的操作日誌

系統界面

通過用戶日誌分析理解數據處理流程

 

查看日誌信息

進入到/usr/local/resin/log查看access_log

通過用戶日誌分析理解數據處理流程

 

我們把文件下載到本地查看

通過用戶日誌分析理解數據處理流程

 

每一行就是一條數據,是用戶訪問的一條記錄,我們以一條數據爲準

通過用戶日誌分析理解數據處理流程

 

看到這些數據我們應該知道:

1、應用系統的web服務器(數據來源)

2、每個字段的名稱和含義(數據意義)

因爲例子我們已經知道是nginx服務器,如果實際情況中一定要弄清楚數據字段的含義。

那麼我們來查看nginx服務器的配置:

查看配置:/etc/nginx/nginx.conf

通過用戶日誌分析理解數據處理流程

 

其中的配置信息

通過用戶日誌分析理解數據處理流程

 

我們變化一下,可以看到有下面的字段

通過用戶日誌分析理解數據處理流程

 

結合之前的數據和字段內容我們得到:

通過用戶日誌分析理解數據處理流程

 

日誌數據字段我們弄清楚之後,我們就要對日誌文件進行處理了。

日誌文件很多時候不能保證正好是如此的,即數據不符合我們的要求,例如:缺少某個字段、時間格式轉換等。確保數據質量,數據質量差會出現很多問題,比如空指針異常,這就需要清洗原始數據成爲我們需要的。比較常用的MapReduce、hive。比如我們的需要有以下的幾種(裏面的情況可以上網去查詢下用途,這裏提供個思路)

通過用戶日誌分析理解數據處理流程

 

那我們總結下基本的數據處理流程:

通過用戶日誌分析理解數據處理流程

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章