大數據綜合案例---網站點擊流數據分析系統

大數據的學習告一段落,今天是大數據近些日子的最後一篇。

這篇主要是一個思路,並沒有代碼啥的,也是將所學的東西,進行一個小的應用。

最後希望大家都可以學習到東西,還是那句話,不懂就問我

 

點擊流數據即指用戶訪問網站時的所有訪問、瀏覽、點擊行爲數據。比如點擊了哪一個鏈接,在哪個網頁停留時間最多,採用了哪個搜索項、總體瀏覽時間等。而所有這些信息都可被保存在網站日誌中。通過分析這些數據,可以獲知許多對網站運營至關重要的信息。採集的數據越全面,分析就能越精準。

 

 

 系統架構
nginx做負載均衡,代理服務器;flume收集nginx的日誌,存儲在hdfs上,mayreduce對hdfs的信息進行分析,並存到hdfs上;hive使用mapreduce的數據得到一個統計處理,oozie(azkaban)做任務調度,sqoop在兩個數據庫之間做導入和導出

 

 數據採集

 

 

 

 

 

 

 開啓nginx  (我的是在/usr/local/nginx這裏)沒在bin下開服務前是沒有很多文件夾的,開啓之後便能在logs看到訪問日誌

 

 

 

 

 

 數據預處理

過濾不合規數據,格式轉換和規整數據,根據後續的統計需求,過濾分離出各種不同主題的基礎數據

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章