有關數據倉庫基本概念

1.什麼是數據倉庫：
　　是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合，用於支持管理決策。
　　是一個將源系統抽取、清洗、規格化、提交到維度數據存儲的系統，爲決策的制定提供查詢和分析功能的支撐與實現。

2.相關數據管理技術和概念：數據倉庫、數據建模、數據質量、數據規範、數據安全和元數據管理。
　　數據探查：對數據本身和關聯關係等進行分析。
　　數據集成：ETL。所需要的工具，Kettle、Talend、Hive、Spark等
　　數據質量：完整性、一致性、準確性、及時性
　　元數據管理：
　　數據屏蔽：對數據進行脫敏，進行不可逆的處理，能滿足開發測試和統計分析使用
　　
3.數據倉庫分層：
　ODS原始數據層（Operational Data Source）：數據同步、基本保持與源數據格式一致，不必過多校驗。
　DIM維度表（Dimension）：一致性維度建設
　DW層：通過ODS層經過ETL清洗、轉換、加載生成的，基於維度建模理論來構建，通過一致性維度和數據總線來保證各個子主題的維度一致性。（主題）
　DWD明細數據層（Data Warehouse Detail）：保存最細粒度的事實表和維度表。標準化、維度補全、異常處理。是業務層與數據倉庫的隔離層。去除空值，髒數據，超過極限範圍的；明細解析；具體表。對ODS層做一定的清洗和主題彙總
　DWM數據中間層（Data WareHouse Middle）：該層會在DWD層的數據基礎上，對數據做輕度的聚合操作，生成一系列的中間表，提升公共指標的複用性，減少重複加工。直觀來講，就是對通用的核心維度進行聚合操作，算出相應的統計指標。
　DWS彙總層（Data Warehouse Summary）：設計主要是出於性能以及避免重複計算考慮，如何設計需要根據業務需求以及明細層實際彙總頻率來確定。單業務場景、行爲數據組裝、提升公共指標的複用。基於DWM上的基礎數據，整合彙總成分析某一個主題域的服務數據，一般是寬表。
　例如針對統計日活的需求，DWS 主要的工作就進行以日爲單位的去重操作。
　APP數據應用層（Application Model）/ADS：個性化指標加工、基於應用的數據組裝。前端報表展示，主題分析，kpi報表。和業務強相關的報表層。（業務）
　1.業務個性化數據
　2.服務於特定場景，複用性不強

4.OLAP與OLTP
　　OLTP（On-line Transaction Processing）：主要用於事務處理
　　OLAP（On-line Analytical Processing）: 分析型數據庫，滿足分析人員的統計需求發展起來的
　　OLAP需要列式存儲：列存儲的類型是固定的，可以很容易採用高壓縮比的算法進行壓縮和解壓縮，磁盤I/O會大大減少，列存儲只需要讀取對應的列，不需要讀取整個表的所有字段進行處理。

５.數據建模的三個階段：
　　1.概念模型：
　　　　主要是通過分析和歸納，將業務劃分成幾個主題，並確定主題之間的關係。
　　　　比如：
　　　　電影行業：影院，影片，影人，用戶，訂單，渠道，發行等。
　　　　出行行業：司機，乘客，訂單，支付，車輛等。
　　2.邏輯模型：
　　　　在概念建模的基礎上，定義數據倉庫各種實體、屬性、關係、指導後續的數據存儲、組織和數據應用的開發。目前比較流行的建模理論爲Inmon提出的自上而下（EDW-DM）的範式建模理論和Kimball的從下而上的（DM-DW）的維度建模理論。
　　　　範式建模：3範式（原子性、唯一性、獨立性）
　　　　　　　　優點：節約存儲、結構清晰、易於理解、適合關係數據庫。
　　　　　　　　缺點：構建比較繁瑣、查詢複雜、不適合構建在大數據分佈式環境下。
　　　　維度建模：星型、雪花型（在星型模型基礎上，基於範式理論進一步層次化）
　　　　　　　　優點：方便使用、適合大數據下的數據處理、適合進行OLAP操作。
　　　　　　　　缺點：維度補全造成的數據存儲的浪費、維度變化造成的數據更新量大、與範式理論差異很大，是典型的反三範式。
　　3.物理模型：
　　　　根據邏輯模型設計的結構爲基礎，設計數據對象的物理實現，比如表的命名規範、字段的命名規範、字段類型選擇、分區設置、存儲設置、更行方式等等。

６.維度建模的4個步驟
　　1.選擇業務過程：
　　　　業務過程是一系列操作活動，轉換爲事實表中的事實，例如每個月每個賬單快照。
　　　　eg:用戶購買商品的訂單記錄表
　　2.聲明粒度：
　　　　粒度是指事實表中的一行代表什麼。同一事實表不要混用粒度，最好從最小粒度開始設計維度，因其能承受用戶無法預知的查詢需求。
　　　　eg:每一條記錄代表一個有效訂單
　　3.確認維度：
　　　　1.維度是根據粒度將表分開成多個維度表，即從不同維度（角度）去看。　
　　　　2.維度是數據倉庫的靈魂，是BI的入口和驅動。
　　　　eg:商品維度、用戶維度、支付維度、收穫維度
　　4.確認事實：
　　　　事實是指一種在某個粒度下的度量，例如在銷售維度中，銷量和總額是良好的事實，而商店經理的工資則不允許出現在該維度中。
　　　　eg：訂單總金額

７.數據湖與數據倉庫：
　　數據湖存儲結構化、半結構化和非結構化數據，同時存放所有數據，不僅包括現在需要用到的數據，也包括以後會用到的數據或者壓根不用的數據；而數據倉庫通常存放的是經過處理、結構化的數據。

8.事實表、實體表與維度表：
　　事實表是數據倉庫結構中的中央表，它包含聯繫事實與維度表的數字度量值和鍵。
　　　　事務型事實表，一般指隨着業務發生不斷產生的數據。特點是一旦發生不會再變化。一般比如，交易流水，操作日誌，出庫入庫記錄等等。
　　　　因爲數據不會變化，而且數據量巨大，所以每天只同步新增數據即可，所以可以做成每日增量表，即每日創建一個分區存儲。
　　　　週期型事實表，一般指隨着業務發生不斷產生的數據。
　　　　與事務型不同的是，數據會隨着業務週期性的推進而變化。
　　　　比如訂單，其中訂單狀態會週期性變化。再比如，請假、貸款申請，隨着批覆狀態在週期性變化。所以要用利用每日新增和變化表，製作一張拉鍊表，以方便的取到某個時間切片的快照數據。所以我們需要得到每日新增及變化量。
　　實體表，一般是指一個現實存在的業務對象，比如用戶，商品，商家，銷售員等等。
　　　　實體表數據量比較小：通常可以做每日全量，就是每天存一份完整數據。即每日全量。
　　維度表就是你觀察該事務的角度，是從哪個角度去觀察這個內容的。一般是指對應一些業務狀態，編號的解釋表。也可以稱之爲碼錶。
　　　　比如地區表，訂單狀態，支付方式，審批狀態，商品分類等等。
　　　　維度表數據量比較小：通常可以做每日全量，就是每天存一份完整數據。即每日全量。
　　例如，某地區商品的銷量，是從地區這個角度觀察商品銷量的。事實表就是銷量表，維度表就是地區表。

9.數據同步策略
　　數據同步策略的類型包括：全量表、增量表、新增及變化表、拉鍊表
　　全量表：存儲完整的數據。實體表、維度表
　　增量表：存儲新增加的數據。事務型事實表
　　新增及變化表：存儲新增加的數據和變化的數據。週期型事實表
　　拉鍊表：對新增及變化表做定期合併。週期型事實表

有關數據倉庫基本概念

Spark讀寫HBase數據

github invalid authentication data can't create token:scopes - [repo,gist] - note Intellif Plugin_1

使用python、impala連接hive

spark ML 機器學習包的使用

linux 安裝python3.7

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結