數倉概念
數據倉庫(Data Warehouse),是爲企業所有決策制定過程,提供所有系統數據支持的戰略集合。
通過對數據倉庫中數據的分析,可以幫助企業,改進業務流程、控制成本、提高產品質量等。
數據倉庫,並不是數據的最終目的地,而是爲數據最終的目的地做好準備。這些準備包括對數據的:清洗,轉義,分類,重組,合併,拆分,統計等等。
項目需求分析
一、項目需求
1.用戶行爲數據採集平臺搭建
2.業務數據採集平臺搭建
3.數據倉庫維度建模
4.分析,用戶、流量、會員、商品、銷售、地區、活動等電商核心主題,統計的報表指標近100個。完全對比中型公司
5.採用即席查詢工具,隨時進行指標分析
6.對集羣性能進行監控,發生異常需要報警
7.元數據管理
8.質量監控
二、思考題
1、項目技術如何選型?
2、框架版本如何選型(Apache、CDH、HDP)
3、服務器使用物理機還是雲主機?
4、如何確認集羣規模?(假設每臺服務器8T硬盤成本是否吼得住)
技術選型
技術選型主要考慮因素:數據量大小、業務需求、行業內經驗、技術成熟度、開發維護成本、總成本計算
數據採集傳輸 | Flume,Kadka,Sqoop,Logstash,DataX |
數據傳輸 | MySql,HDFS,HBase,Redis,MongoDB |
數據計算 | Hive,Tez,Spark,Flink,Storm |
數據查詢 | Presto,Druid,Impala,Kylin |
數據可視化 | Echarts,Superset,QuickBI,DataV |
任務調度 | Azkaban,Oozie |
集羣監控 | Zabbix |
元數據管理 | Atlas |
數據質量監控 | Criffin |