大概瞭解一下離線項目(未完成)

數倉概念

      數據倉庫(Data Warehouse),是爲企業所有決策制定過程,提供所有系統數據支持的戰略集合
      通過對數據倉庫中數據的分析,可以幫助企業,改進業務流程、控制成本、提高產品質量等。

      數據倉庫,並不是數據的最終目的地,而是爲數據最終的目的地做好準備。這些準備包括對數據的:清洗,轉義,分類,重組,合併,拆分,統計等等。 

項目需求分析

一、項目需求

1.用戶行爲數據採集平臺搭建

2.業務數據採集平臺搭建

3.數據倉庫維度建模

4.分析,用戶、流量、會員、商品、銷售、地區、活動等電商核心主題,統計的報表指標近100個。完全對比中型公司

5.採用即席查詢工具,隨時進行指標分析

6.對集羣性能進行監控,發生異常需要報警

7.元數據管理

8.質量監控

二、思考題

1、項目技術如何選型

2、框架版本如何選型(Apache、CDH、HDP)

3、服務器使用物理機還是雲主機

4、如何確認集羣規模?(假設每臺服務器8T硬盤成本是否吼得住)

 技術選型

技術選型主要考慮因素:數據量大小、業務需求、行業內經驗、技術成熟度、開發維護成本、總成本計算

數據採集傳輸 Flume,Kadka,Sqoop,Logstash,DataX
數據傳輸 MySql,HDFS,HBase,Redis,MongoDB
數據計算 Hive,Tez,Spark,Flink,Storm
數據查詢 Presto,Druid,Impala,Kylin
數據可視化 Echarts,Superset,QuickBI,DataV
任務調度 Azkaban,Oozie
集羣監控 Zabbix
元數據管理 Atlas
數據質量監控 Criffin

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章