有關數據倉庫基本概念

1.什麼是數據倉庫:
  是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用於支持管理決策。
  是一個將源系統抽取、清洗、規格化、提交到維度數據存儲的系統,爲決策的制定提供查詢和分析功能的支撐與實現。

2.相關數據管理技術和概念:數據倉庫、數據建模、數據質量、數據規範、數據安全和元數據管理。
  數據探查:對數據本身和關聯關係等進行分析。
  數據集成:ETL。所需要的工具,Kettle、Talend、Hive、Spark等
  數據質量:完整性、一致性、準確性、及時性
  元數據管理:
  數據屏蔽:對數據進行脫敏,進行不可逆的處理,能滿足開發測試和統計分析使用
  
3.數據倉庫分層:
 ODS原始數據層(Operational Data Source):數據同步、基本保持與源數據格式一致,不必過多校驗。
 DIM維度表(Dimension):一致性維度建設
 DW層:通過ODS層經過ETL清洗、轉換、加載生成的,基於維度建模理論來構建,通過一致性維度和數據總線來保證各個子主題的維度一致性。(主題)
 DWD明細數據層(Data Warehouse Detail):保存最細粒度的事實表和維度表。標準化、維度補全、異常處理。是業務層與數據倉庫的隔離層。去除空值,髒數據,超過極限範圍的;明細解析;具體表。對ODS層做一定的清洗和主題彙總
 DWM數據中間層(Data WareHouse Middle):該層會在DWD層的數據基礎上,對數據做輕度的聚合操作,生成一系列的中間表,提升公共指標的複用性,減少重複加工。直觀來講,就是對通用的核心維度進行聚合操作,算出相應的統計指標。
 DWS彙總層(Data Warehouse Summary):設計主要是出於性能以及避免重複計算考慮,如何設計需要根據業務需求以及明細層實際彙總頻率來確定。單業務場景、行爲數據組裝、提升公共指標的複用。基於DWM上的基礎數據,整合彙總成分析某一個主題域的服務數據,一般是寬表。
 例如針對統計日活的需求,DWS 主要的工作就進行以日爲單位的去重操作。
 APP數據應用層(Application Model)/ADS:個性化指標加工、基於應用的數據組裝。前端報表展示,主題分析,kpi報表。和業務強相關的報表層。(業務)
 1.業務個性化數據
 2.服務於特定場景,複用性不強
在這裏插入圖片描述
4.OLAP與OLTP
  OLTP(On-line Transaction Processing):主要用於事務處理
  OLAP(On-line Analytical Processing): 分析型數據庫,滿足分析人員的統計需求發展起來的
  OLAP需要列式存儲:列存儲的類型是固定的,可以很容易採用高壓縮比的算法進行壓縮和解壓縮,磁盤I/O會大大減少,列存儲只需要讀取對應的列,不需要讀取整個表的所有字段進行處理。

5.數據建模的三個階段:
  1.概念模型:
    主要是通過分析和歸納,將業務劃分成幾個主題,並確定主題之間的關係。
    比如:
    電影行業:影院,影片,影人,用戶,訂單,渠道,發行等。
    出行行業:司機,乘客,訂單,支付,車輛等。
  2.邏輯模型:
    在概念建模的基礎上,定義數據倉庫各種實體、屬性、關係、指導後續的數據存儲、組織和數據應用的開發。目前比較流行的建模理論爲Inmon提出的自上而下(EDW-DM)的範式建模理論和Kimball的從下而上的(DM-DW)的維度建模理論。
    範式建模:3範式(原子性、唯一性、獨立性)
        優點:節約存儲、結構清晰、易於理解、適合關係數據庫。
        缺點:構建比較繁瑣、查詢複雜、不適合構建在大數據分佈式環境下。
    維度建模:星型、雪花型(在星型模型基礎上,基於範式理論進一步層次化)
        優點:方便使用、適合大數據下的數據處理、適合進行OLAP操作。
        缺點:維度補全造成的數據存儲的浪費、維度變化造成的數據更新量大、與範式理論差異很大,是典型的反三範式。
  3.物理模型:
    根據邏輯模型設計的結構爲基礎,設計數據對象的物理實現,比如表的命名規範、字段的命名規範、字段類型選擇、分區設置、存儲設置、更行方式等等。

6.維度建模的4個步驟
  1.選擇業務過程:
    業務過程是一系列操作活動,轉換爲事實表中的事實,例如每個月每個賬單快照。
    eg:用戶購買商品的訂單記錄表
  2.聲明粒度:
    粒度是指事實表中的一行代表什麼。同一事實表不要混用粒度,最好從最小粒度開始設計維度,因其能承受用戶無法預知的查詢需求。
    eg:每一條記錄代表一個有效訂單
  3.確認維度:
    1.維度是根據粒度將表分開成多個維度表,即從不同維度(角度)去看。 
    2.維度是數據倉庫的靈魂,是BI的入口和驅動。
    eg:商品維度、用戶維度、支付維度、收穫維度
  4.確認事實:
    事實是指一種在某個粒度下的度量,例如在銷售維度中,銷量和總額是良好的事實,而商店經理的工資則不允許出現在該維度中。
    eg:訂單總金額

7.數據湖與數據倉庫:
  數據湖存儲結構化、半結構化和非結構化數據,同時存放所有數據,不僅包括現在需要用到的數據,也包括以後會用到的數據或者壓根不用的數據;而數據倉庫通常存放的是經過處理、結構化的數據。

8.事實表、實體表與維度表:
  事實表是數據倉庫結構中的中央表,它包含聯繫事實與維度表的數字度量值和鍵。
    事務型事實表,一般指隨着業務發生不斷產生的數據。特點是一旦發生不會再變化。一般比如,交易流水,操作日誌,出庫入庫記錄等等。
    因爲數據不會變化,而且數據量巨大,所以每天只同步新增數據即可,所以可以做成每日增量表,即每日創建一個分區存儲。
    週期型事實表,一般指隨着業務發生不斷產生的數據。
    與事務型不同的是,數據會隨着業務週期性的推進而變化。
    比如訂單,其中訂單狀態會週期性變化。再比如,請假、貸款申請,隨着批覆狀態在週期性變化。所以要用利用每日新增和變化表,製作一張拉鍊表,以方便的取到某個時間切片的快照數據。所以我們需要得到每日新增及變化量。
  實體表,一般是指一個現實存在的業務對象,比如用戶,商品,商家,銷售員等等。
    實體表數據量比較小:通常可以做每日全量,就是每天存一份完整數據。即每日全量。
  維度表就是你觀察該事務的角度,是從哪個角度去觀察這個內容的。一般是指對應一些業務狀態,編號的解釋表。也可以稱之爲碼錶。
    比如地區表,訂單狀態,支付方式,審批狀態,商品分類等等。
    維度表數據量比較小:通常可以做每日全量,就是每天存一份完整數據。即每日全量。
  例如,某地區商品的銷量,是從地區這個角度觀察商品銷量的。事實表就是銷量表,維度表就是地區表。

9.數據同步策略
  數據同步策略的類型包括:全量表、增量表、新增及變化表、拉鍊表
  全量表:存儲完整的數據。實體表、維度表
  增量表:存儲新增加的數據。事務型事實表
  新增及變化表:存儲新增加的數據和變化的數據。週期型事實表
  拉鍊表:對新增及變化表做定期合併。週期型事實表

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章