DB、DW、DM、ODS、OLAP、OLTP和BI的概念理解

今天特地查了一些官方解釋和很多優秀的博客文章,將關於數倉方面的一些名詞理解記了下來,先將這些簡稱做一個解釋:

 

1、DB(DataBase):數據庫,一般指的就是OLTP數據庫,在線事物數據庫,用來支持生產的。DB保留的是數據信息的最新狀態,只有一個狀態!

 

2、DW(Data Warehouse):數據倉庫,保存的是數據在不同時間點的狀態,對同一個數據信息,保留不同時間點的狀態,便於我們做統計分析。

 

3、關於DM,目前網上有兩種說法,一說數據集市(Data Mart);一說數據挖掘(Data Mining),百度百科給出的是數據挖掘的概念,我這裏將這兩種說法都做了解釋:

 

  • DM(Data Mart):數據集市,以某個業務應用爲出發點而建立的局部DW,DW只關心自己需要的數據,不會全盤考慮企業整體的數據架構和應用,每個應用有自己的DM。

  • DM(Data Mining):數據挖掘,又稱爲數據庫中的知識發現(Knowledge Discovery in Database, KDD),就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數據挖掘就是從大量數據中提取或“挖掘”知識。

4、ODS(Operating Data Store):操作性數據倉庫,最早的數據倉庫模型。特點是數據模型採取了貼源設計,業務系統的數據結構是怎樣的,ODS數據庫的結構就是怎樣的。所不同的是ODS數據庫可以提供數據變化的歷史,所以ODS數據庫中每張表都會增加一個日期類型,表示數據的時間點,將每天數據的變化情況都存下來,這樣有利於數據的分析。

 

5、OLTP(on-line transaction processing):聯機事務處理,OLTP是傳統的關係型數據庫的主要應用,主要是基本的、日常的事務處理,例如銀行交易。

 

6、OLAP(On-Line Analytical Processing):聯機分析處理,OLAP是數據倉庫系統的主要應用,支持複雜的分析操作,側重決策支持,並且提供直觀易懂的查詢結果。 

 

7、BI(Business Intelligence):商業智能,領導,決策者,在獲取了OLAP的統計信息,和DM得到的科學規律之後,對生產進行適當的調整,比如,命令超市人員將啤酒喝尿布放在一起銷售,這就反作用於DB修改存貨數據了——這就是整個BI的作用!

 

 

圖片

數據中心整體架構

 

數據倉庫的整體架構,各個系統的元數據通過ETL同步到操作性數據倉庫ODS,對ODS數據進行面向主題或建模形成DW(數據倉庫),DM是針對某一個業務領域建立模型,具體用戶(決策層)查看DM生成的報表。

接下來我們講一下他們之間的部分關係:

 

1、Data Warehouse和Data Mining之間的關係

        若將Data Warehouse(數據倉庫)比喻作礦坑,Data Mining就是深入礦坑採礦的工作。畢竟Data Mining不是一種無中生有的魔術,也不是點石成金的鍊金術,若沒有夠豐富完整的數據,是很難期待Data Mining能挖掘出什麼有意義的信息的。

  要將龐大的數據轉換成爲有用的信息,必須先有效率地收集信息。隨着科技的進步,功能完善的數據庫系統就成了最好的收集數據的工具。數據倉庫,簡單地說,就是蒐集來自其它系統的有用數據,存放在一整合的儲存區內。所以其實就是一個經過處理整合,且容量特別大的關係型數據庫,用以儲存決策支持系統(Design Support System)所需的數據,供決策支持或數據分析使用。從信息技術的角度來看,數據倉庫的目標是在組織中,在正確的時間,將正確的數據交給正確的人。

  許多人對於Data Warehouse和Data Mining時常混淆,不知如何分辨。其實,數據倉庫是數據庫技術的一個新主題,利用計算機系統幫助我們操作、計算和思考,讓作業方式改變,決策方式也跟着改變。

  數據倉庫本身是一個非常大的數據庫,它儲存着由組織作業數據庫中整合而來的數據,特別是指事務處理系統OLTP(On-Line Transactional Processing)所得來的數據。將這些整合過的數據置放於數據庫中,而公司的決策者則利用這些數據作決策;但是,這個轉換及整合數據的過程,是建立一個數據倉庫最大的挑戰。因爲將作業中的數據轉換成有用的的策略性信息是整個數據倉庫的重點。綜上所述,數據倉庫應該具有這些數據:整合性數據(integrated data)、詳細和彙總性的數據(detailed and summarized data)、歷史數據、解釋數據的數據。從數據倉庫挖掘出對決策有用的信息與知識,是建立數據倉庫與使用Data Mining的最大目的,兩者的本質與過程是兩回事。換句話說,數據倉庫應先行建立完成,Data mining纔能有效率的進行,因爲數據倉庫本身所含數據是乾淨(不會有錯誤的數據參雜其中)、完備,且經過整合的。因此兩者關係或許可解讀爲Data Mining是從巨大數據倉庫中找出有用信息的一種過程與技術。

 

2、ODS到DW的集成示例

圖片

集成示例

 

3、OLAP會替代Data Mining嗎?

 

所謂OLAP(Online Analytical Process)意指由數據庫所連結出來的在線分析處理程序。有些人會說:「我已經有OLAP的工具了,所以我不需要Data Mining。」事實上兩者間是截然不同的,主要差異在於Data Mining用在產生假設,OLAP則用於查證假設。簡單來說,OLAP是由使用者所主導,使用者先有一些假設,然後利用OLAP來查證假設是否成立;而Data Mining則是用來幫助使用者產生假設。所以在使用OLAP或其它Query的工具時,使用者是自己在做探索(Exploration),但Data Mining是用工具在幫助做探索。

  舉個例子來看,一市場分析師在爲超市規劃貨品架櫃擺設時,可能會先假設嬰兒尿布和嬰兒奶粉會是常被一起購買的產品,接着便可利用OLAP的工具去驗證此假設是否爲真,看成立的證據有多明顯;但Data Mining則不然,執行Data Mining的人將龐大的結帳數據整理後,並不需要假設或期待可能的結果,透過Mining技術可找出存在於數據中的潛在規則,於是我們可能得到例如尿布和啤酒常被同時購買的意料外之發現,這是OLAP所做不到的。

  Data Mining常能挖掘出超越歸納範圍的關係,但OLAP僅能利用人工查詢及可視化的報表來確認某些關係,是以Data Mining此種自動找出甚至不會被懷疑過的數據模型與關係的特性,事實上已超越了我們經驗、教育、想象力的限制,OLAP可以和Data Mining互補,但這項特性是Data Mining無法被OLAP取代的。

小結:DM是智能化的OLAP

 

4、Data Warehouse和Data Mart之間的關係

數據倉庫是企業級的,能爲整個企業各個部門的運行提供決策支持手段;而數據集市則是一種微型的數據倉庫,它通常有更少的數據,更少的主題區域,以及更少的歷史數據,因此是部門級的,一般只能爲某個局部範圍內的管理人員服務,因此也稱之爲部門級數據倉庫。

圖片

圖片

 

參考的鏈接:

https://blog.csdn.net/u011878191/article/details/49130733

https://www.jianshu.com/p/72e395d8cb33

https://blog.csdn.net/xuxurui007/article/details/8374203

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章