電商數倉-用戶行爲數據採集
數據倉庫的概念
數據倉庫( Data Warehouse ),是爲企業所有決策制定過程,提供所有系統數據支持的戰略集合。
通過對數據倉庫中數據的分析,可以幫助企業,改進業務流程、控制成本、提高產品質量等。
數據倉庫,並不是數據的最終目的地,而是爲數據最終的目的地做好準備。這些準備包括對數據的:清洗,轉義,分類,重組,合併,拆分,統計等等。
項目的需求分析和架構設計
項目需求分析
-
數據採集平臺搭建
-
實現用戶行爲數據倉庫的分層搭建
-
實現業務數據倉庫的分層搭建
-
針對數據倉庫中的數據進行,留存、轉化率、GMV、復購率、活躍等報表分析
需要考慮的問題:
-
項目技術如何選型?
-
項目中所用的框架的版本如何選型(Apache、CDH、HDP)
-
服務器選用物理機還是雲主機?
-
如何確認集羣規模
項目框架
技術選型
-
數據採集傳輸:Flume,Kafka,Sqoop ,Logstash,DataX
-
數據存儲:MySql,HDFS,HBase,Redis,MongoDB
-
數據計算:Hive,Tez, Spark, Flink,Storm
-
數據查詢:Presto,Druid ,Impala,Kylin
系統數據流程設計
公衆號ID:ldc11235
掃碼關注最新動態,跟我一起學大數據