如何看待數據的生命週期?

概述

通常認爲數據進入數據庫之後就是靜態的,以後會查詢它們。但是實際上,數據更像是組裝線上的產品,會從一種環境轉移到另一種環境,並在沿途進行各種轉換。
data life

OLTP(聯機事務處理)

數據的源頭是來自客戶活動,客戶通過一個軟件進行各種操作從而產生一系列相關的數據,我將這些數據理解爲業務數據,而這些數據就保存在業務數據庫中。這種數據庫是不斷的與客戶進行交互的,一般稱之爲聯機事務處理。OLTP對數據的實時性要求很高,客戶發送一個請求,數據庫需要在很短的時間產生響應,計算出結果,展示在客戶面前。在規範化的環境中,每個數據表用於表示一個實體,並將數據冗餘保持在最低限度。當要修改一個實體時,只要在一個地方修改,使修改操作得以優化,同時也減少了發生錯誤的機會。

ETL(提取、轉換、加載)

然而業務性數據不僅僅時用來進行交互,這樣會浪費數據的價值,我們需要將這些數據通過一定的方式進行整合,然後加以分析、挖掘,獲取更大的商業價值。這一過程就簡稱爲ETL。關於ETL,實現的方法多種多樣,通常的手段有:SQL編程、Python編程、成熟的ETL工具。一般大型的項目都需要使用到工具,關於SQL SERVER,可以使用微軟的SSIS服務和開源的Kettle。ETL有幾個需要關注的點:

  1. 增量還是全量;
  2. 日誌應該怎麼寫以及如何進行監控;
  3. 元數據應該怎麼管理。

數據倉庫

數據倉庫是專門針對數據檢索和生成報表而設計的環境。當這樣的環境服務於整個企業時,就稱之爲數據倉庫;而只服務於企業的一部分時(比如說部門),就稱之爲數據集市。主要爲了支持數據檢索,而對數據倉庫中的數據模型進行設計和優化。模型有意保持了一定的冗餘,允許通過更少的表和更簡單的關係,最終得到比OLTP環境更加簡單和有效的查詢。這部分還會設計到數據模型相關的知識,常用的有3NF建模和維度建模。
Mark一個好的建模工具Power Designer。

數據集市

數據倉庫的一個子集,服務於部門。在數據倉庫和數據集市之間搭建ETL,適合使用維度建模。

OLAP(聯機分析處理)

OLAP系統支持對聚合後的數據進行動態的在線分析。由於性能的要求,需要提前對數據進行聚合。
mark ssas

應用

對於數據倉庫的應用主要包括:報表開發(數據可視化)、數據挖掘。數據可視化一般使用Tableau。數據挖掘比較困難,涉及到各種算法,對數理理論知識,編程都有一定要求。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章