BI四項技術的關係

商務智能是一套完整的解決方案,它是將數據倉庫、聯機分析處理(OLAP)和數據挖掘等結合起來應用到商業活動中,從不同的數據源收集數據,經過抽取(Extract)、轉換(Transform)和加載(Load),送入到數據倉庫或數據集市,然後使用合適的查詢與分析工具、數據挖掘工具和聯機分析處理工具對信息進行處理,將信息轉變成爲輔助決策的知識,最後將知識呈現於用戶面前,以實現技術服務與決策的目的。

  商務智能的四大關鍵技術

  商務智能的支撐技術主要包括ETL(數據的提取、轉換與加載)技術和數據倉庫與數據集市技術、OLAP技術、數據挖掘技術與數據的發佈與表示技術。

  1.數據倉庫技術

  實施BI首先要從企業內部和企業外部不同的數據源,如客戶關係管理(CRM)、供應鏈管理(SCM)、企業資源規劃(ERP)系統以及其他應用系統等蒐集有用的數據,進行轉換和合並,因此需要數據倉庫和數據集市技術的支持。

  數據倉庫(Data Warehouse)是指從多個數據源收集的信息,以一種一致的存儲方式保存所得到的數據集合。數據倉庫創始人之一W.H.Inmon的定義爲:“數據倉庫是一個面向主題的、集成的、穩定的、包含歷史數據的數據集合,它用於支持管理中的決策制定過程”。在構造數據倉庫時,要經過數據的清洗、數據的抽取轉換、數據集成和數據加載等過程。面向不同的需求,對數據進行清洗以保證數據的正確性,然後對數據進行抽取,轉換成數據倉庫所需形式,並實現加載到數據倉庫。

  數據倉庫是一種語義上一致的數據存儲,充當決策支持數據模型的物理實現,並存放企業戰略決策所需信息。數據倉庫的數據模型有星型模式、雪花模式。星型模式最爲常見,有一個包含大批數據並且不含冗餘的中心表,每維一組小的附屬表。雪花模式中某些維表是規範化的,因而把數據進一步分解到附加的表中,模式圖形成了類似雪花的形狀。對數據倉庫的研究集中在數據集成中數據模式的設計、數據清洗和數據轉換、導入和更新方法等。

  數據倉庫通常是企業級應用,因此涉及的範圍和投入的成本非常巨大,使一些企業無力承擔。因而,他們希望在最需要的關鍵部門建立一種適合自身應用的、自行定製的部門數據倉庫子集。正是這種需求使數據集市應運而生。數據集市( Data Mart) 是聚焦在選定的主題上的,是部門範圍的。根據數據的來源不同,數據集市分爲獨立的和依賴的兩類。在獨立的數據集市中,數據來自一個或多個操作的系統或外部信息提供者,或者來自在一個特定的部門或地域局部產生的數據。依賴的數據集市中的數據直接來自企業數據倉庫。

  2.聯機分析處理技術(OLAP)

  聯機分析處理(Online Analytical Processing ,簡稱OLAP) 又稱多維分析,由EF Codd 在1994 年提出,它對數據倉庫中的數據進行多維分析和展現,是使分析人員、管理人員或執行人員能夠從多種角度對從原始數據中轉化出來的、能夠真正爲用戶所理解的、並真實反映企業維特性的信息進行快速、一致、交互地存取,從而獲得對數據更深入瞭解的一類軟件技術。它的技術核心是“維”這個概念,因此OLAP也可以說是多維數據分析工具的集合。

  進行OLAP分析的前提是已有建好的數據倉庫,之後即可利用OLAP 複雜的查詢能力、數據對比、數據抽取和報表來進行探測式數據分析了。稱其爲探測式數據分析,是因爲用戶在選擇相關數據後,通過切片(按二維選擇數據)、切塊(按三維選擇數據)、上鑽(選擇更高一級的數據詳細信息以及數據視圖)、下鑽(展開同一級數據的詳細信息)、旋轉(獲得不同視圖的數據) 等操作,可以在不同的粒度上對數據進行分析嘗試,得到不同形式的知識和結果。聯機分析處理研究主要集中在ROLAP(基於關係數據庫的OLAP) 的查詢優化技術和MOLAP(基於多維數據組織的OLAP) 中減少存儲空間和提高系統性能的方法等。

3.數據挖掘技術

  與OLAP 的探測式數據分析不同,數據挖掘是按照預定的規則對數據庫和數據倉庫中已有的數據進行信息開採、挖掘和分析,從中識別和抽取隱含的模式和有趣知識,爲決策者提供決策依據。數據挖掘的任務是從數據中發現模式。模式有很多種,按功能可分爲兩大類:預測型( Predictive)模式和描述型(Descriptive)模式。

  預測型模式是可以根據數據項的值精確確定某種結果的模式。挖掘預測型模式所使用的數據也都是可以明確知道結果的。描述型模式是對數據中存在的規則做一種描述,或者根據數據的相似性把數據分組。描述型模式不能直接用於預測。在實際應用中,根據模式的實際作用,可細分爲分類模式、迴歸模式、時間序列模式、聚類模式、關聯模式和序列模式6 種。其中包含的具體算法有貨籃分析(Market Analysis)、聚類檢測(Clustering Detection)、神經網絡(Neural Networks)、決策樹方法(Decision Trees)、遺傳算法(Genetic Analysis)、連接分析(Link Analysis)、基於範例的推理(Case Based Reasoning)和粗集(RoughSet)以及各種統計模型。

  OLAP 與數據挖掘的區別和聯繫是:OLAP 側重於與用戶的交互、快速的響應速度及提供數據的多維視圖,而數據挖掘則注重自動發現隱藏在數據中的模式和有用信息,儘管允許用戶指導這一過程。OLAP 的分析結果可以給數據挖掘提供分析信息作爲挖掘的依據,數據挖掘可以拓展OLAP 分析的深度,可以發現OLAP 所不能發現的更爲複雜、細緻的信息。數據挖掘的研究重點則偏向數據挖掘算法以及數據挖掘技術在新的數據類型、應用環境中使用時所出現新問題的解決上, 如對各種非結構化數據的挖掘、數據挖掘語言的標準化以及可視化數據挖掘等。

  4.BI 的表示和發佈技術

  爲了使分析後的數據直觀、簡練地呈現在用戶面前,需要採用一定的形式表示和發佈出來,通常採用的是一些查詢和報表工具。不過,目前越來越多的分析結果是以可視化的形式表現出來,這就需要採用信息可視化技術。

  所謂信息可視化是指以圖形、圖像、虛擬現實等易爲人們所辨識的方式展現原始數據間的複雜關係、潛在信息以及發展趨勢,以便我們能夠更好地利用所掌握的信息資源。隨着Web 應用的普及,商務智能的解決方案能夠提供基於Web 的應用服務,這樣就擴展了商務智能的信息發佈範圍。作爲基於Web 的商務智能解決方案,需要一些基本的組成要素,包括基於Web 的商務智能服務器、會話管理服務、文件管理服務、調度、分配和通知服務、負載平衡服務和應用服務等。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章