電商數倉用戶行爲數據採集-需求分析和架構設計

電商數倉-用戶行爲數據採集

數據倉庫的概念

數據倉庫( Data Warehouse ),是爲企業所有決策制定過程,提供所有系統數據支持的戰略集合。

通過對數據倉庫中數據的分析,可以幫助企業,改進業務流程、控制成本、提高產品質量等。

數據倉庫,並不是數據的最終目的地,而是爲數據最終的目的地做好準備。這些準備包括對數據的:清洗,轉義,分類,重組,合併,拆分,統計等等。

項目的需求分析和架構設計

項目需求分析

  1. 數據採集平臺搭建

  2. 實現用戶行爲數據倉庫的分層搭建

  3. 實現業務數據倉庫的分層搭建

  4. 針對數據倉庫中的數據進行,留存、轉化率、GMV、復購率、活躍等報表分析


需要考慮的問題:

  1. 項目技術如何選型?

  2. 項目中所用的框架的版本如何選型(Apache、CDH、HDP)

  3. 服務器選用物理機還是雲主機?

  4. 如何確認集羣規模

項目框架

技術選型

  • 數據採集傳輸:Flume,Kafka,Sqoop ,Logstash,DataX

  • 數據存儲:MySql,HDFS,HBase,Redis,MongoDB

  • 數據計算:Hive,Tez, Spark, Flink,Storm

  • 數據查詢:Presto,Druid ,Impala,Kylin

系統數據流程設計

公衆號ID:ldc11235

掃碼關注最新動態,跟我一起學大數據

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章