IBM高級工程師談數據湖管理

何爲數據湖

數據湖參考架構實際是指分析系統必備的技術能力,不依賴於任何其他技術。這種技術獨立是非常重要的,現在有很多公司都投資了數據平臺,希望能夠將這些數據平臺的技術納入他們的解決方案。此外,技術是在不斷進步的,選擇哪種技術通常取決於待處理數據的數量、種類和產生速度。

分析系統的成功與否並不僅僅取決於它所採用的技術。數據湖參考架構明確了數據管理過程和各種定義的界限,確保技術之外的人力和業務系統能夠展開高效合作,爲數據應用創建自助的、安全的環境。

基於數據湖的數據管理

管理的重要性不言而喻。詹姆斯·瓦特發明蒸汽機的時候,同時發明了飛球式調速器管理系統,調節“引擎”平衡,保證工作效率。“引擎”可以是一個工作流程、一個機構組織,或者信息流。對於管理來說,“引擎”就是管理的目標對象, 明確管理對象是管理的重點。

根據不同公司數據管理對象的不同,數據湖的管理方式多種多樣。舉例來說,IT部門的數據湖“引擎”是各種技術。業務部門也可以將數據湖視爲創新引擎的一部分,幫助他們創造新的數據價值。確定數據湖管理項目的第一步就是考慮數據湖不同用戶羣的需求,再考慮什麼樣的機制能夠在不同需求之間達到兼顧平衡。

舉例來說,向數據湖提供數據的系統所有者需要維護來自其系統的數據目錄條目,然後他們就可以獲得對該數據的質量和穩定性的分析,這有助於他們爲用戶提供更好的服務。

數據科學家在處理敏感數據時可能會受到各種限制,但是另一方面,他們可以得到豐富的數據目錄,在需要使用特定數據集時,他們也能更容易獲得批准。他們同時還能爲該數據目錄提供數據和內容。

他們貢獻的內容越多,他們獲取數據的過程就越容易。通過建立供應商需求和消費者需求之間的平衡,可以實現投入與產出的平衡,創造可持續的生態系統。

數據湖管理者

除了從用戶角度設計管理項目之外,我們還需要確定由誰來控制數據湖,因爲數據湖的控制者會影響數據湖的管理方式。如果是IT部門控制數據湖,那麼正常的IT管理方式就能夠滿足數據湖管理的要求。

如果是業務部門管理數據湖,那麼我們就需要通過數據服務和元數據,抽離出數據湖的運行機制,明確不同數據種類的區別,創建數據湖視圖,來幫助業務部門理解和操作。然後,通過目錄中的元數據將此視圖映射到實際的數據和技術中,並且數據湖服務將使用元數據設置來驅動數據湖的運作。

一旦“引擎”確定之後,管理項目就可以進入正常的設計階段:

  • 設定數據湖元數據、格式和最佳實踐標準;
  • 檢驗、監測上述標準的執行;
  • 採取合理方式處理數據異常情況、回答合規問題,並根據反饋進行項目調整。

管理平衡與價值

最後,我想再次強調反饋在實現平衡和價值方面的重要性。管理項目必須是動態的,它必須體現出其自身的價值。反饋機制的重要性也不容忽視,它會提醒項目管理者作出及時調整,應對隨時發生的變化。

​更多大數據與分析精品乾貨請訪問慧都大數據bigdata.evget.com

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章