數據集成之數據聯邦(data federation)

數據聯邦(data federation

數據聯邦的概念

數據聯邦(也有翻譯成數據聯合)提供了一種創建對數據消費者(應用)角度看數據集成視圖,數據邏輯看上去存在一個位置,但實際的物理位置卻可能在多個數據源中。

也可以說,數據聯邦技術提供了一種爲數據提供抽象的數據接口的能力。這些多個數據源組成的虛擬視圖可以使數據消費者(應用)不需要知道數據的物理位置、數據結構和保存方式。

以上兩個概念虛擬集成視圖和抽象數據接口對解決很多數據集成需求是很有用的方式,這也是驅動數據聯邦技術發展的重要動力。

 

很多時候,我們一提到數據集成就想到ETL(這裏的ETL指的是批量方式的ETL,因爲數據聯邦的處理也存在邏輯的ETL過程),其實ETL也只是數據集成的一種方式,不是包治百病的良藥,我們在爲客戶設計解決方案時,一定要從需求出發來爲客戶設計解決方案。

很多時候,可能是針對不同場景,提出多種方式相結合的方案。

數據聯邦(data federation)的缺點

由於訪問數據是通過一個“聯邦”視圖(federation view來實現的,視圖是實時的,因此數據轉換是一個重點,但是卻無法解決數據質量和性能問題。隨着企業數據量的增大,性能問題是所有數據集成(Data Integration tools)都面臨的問題,但是由於設計思路的缺陷,數據聯邦在這方面雖有很大進展,但是也無法和另外一些數據集成技術相比。數據質量管控(data quality assurance)意味着數據規則(data rule)加載、數據檢驗(data validation)執行,這也不是“聯邦”視圖(federation view解決現實數據集成問題的優先考慮的因素。

數據聯邦(data federation)的缺點制約了它在數據集成領域的適用性,雖然很多領域都使用了數據聯邦(data federation)技術,但是在關鍵的核心業務系統它的應用非常少。

 

爲什麼採用數據聯邦(data federation)技術

雖然有上述缺點,但數據聯邦(data federation)技術依然爲很多企業所採用,這主要是因爲與其它數據集成技術相比,它的明顯優勢獲取數據的方便性和實時性。很多企業都在實踐SOASOA的靈活性和敏捷性要求組織提供數據要有更少的時延。以前的利用批量任務或者ETL的方式創建數據集市和數據倉庫的方式由於實時性不好,在很多應用場景中被數據聯邦技術所取代。

 

數據聯邦的一些應用場景

1.       BI的數據處理過程:一些ETL工具或者ETL的開發人員希望通過一箇中間層來加載數據,而不需要了解過多的複雜的不同數據源的數據結構,數據聯邦簡化了實施和開發的過程。

2.       數據模型的變化:一些企業由於業務發展數據模型處於不斷變化改進的階段,由於數據聯邦沒有實際數據,因此可以很快的適應這樣的變化。

3.       SOA場景下對於數據服務的要求:數據聯邦可以很快速的開發抽象的數據服務接口。

SOA場景下的數據聯邦(轉自IBM developer work

 

 

4.       提供統一的主數據視圖:隨着企業主數據管理的開始和發展,數據聯邦提供了一種比較簡便的集成解決方法。

  

數據聯邦的適用場景

1.       對及時投入生產要求較高的應用,數據聯邦允許應用直接訪問數據,而不需要耗時較長的數據架構的調整。

2.       如果數據安全性要求較高的企業,不允許對數據進行復制和備份的場景下,數據聯邦是很好的解決方案

3.       要求實時訪問的。數據可以是結構化的,也可以是非結構化的。

4.       在數據經常變換的環境下,數據聯邦是靈活性和擴展性高的解決方案。比如在一個schema演進的場景下,由於沒有冗餘和備份的數據,在數據聯邦中schema的改變影響很小。

 

數據聯邦的不適用場景(或者風險較大的場景)

1.       集成場景中包含複雜數據轉換的,會由於數據轉換會減低響應時間而帶來負面的影響。

2.       真實數據源服務器會的負載會有所增加。聯邦服務器會把聯邦視圖分解爲多個子操作,這些子操作會傳送給數據源服務器,這些子操作越複雜這些源服務器的負載越大。

3.       如果數據結果集非常大時,性能會降低。

4.       對可用性要求較高的應用,由於數據聯邦依賴於多個數據源,而這些數據源的高可用性是數據聯邦技術無法保證的。

 

數據聯邦已實施項目特點

使用簡單的有限的數據源,數據結果集不大,只讀性的數據訪問,數據質量要求簡單。

 

數據聯邦實施要考慮的問題

其實也是數據集成項目都必須要考慮的問題,只不過基於數據聯邦的實施的特點,解決問題方式要有所不同,在這裏只做簡單羅列,不相信說明了。

數據安全,數據延時,數據的有效性,數據的一致性和質量,數據的可用性,數據模型改變的影響,性能,數據訪問量,事務等。

數據聯邦的產品

 

比較典型的產品是BEA  AquaLogic Data Services PlatformIBM — Federation Server

Red Hat — JBoss (via MetaMatrix)Software AG— Enterprise Information IntegrationSybase— Data Federation

 

編者說明:本文章是在筆者爲一家電信企業做數據集成方案設計是所寫,也是對自己研究的資料的一個總結,希望對做這方面研究和工作的讀者有幫助。另外由於篇幅原因,有很多題目沒有在這裏展開。另外聲明:部分內容是從IBM developerworkGartner的文章轉過來的。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章