雲上數據倉庫選型指南

前言:

雲數據倉庫是構建在雲上的新一代數據倉庫解決方案,如何選擇符合企業需求的雲數據倉庫,選擇時應考慮哪些關鍵問題成爲很多企業管理者關心的問題。本文參考TDWI以及Forrester的研究報告內容,對雲數據倉庫選型參考依據進行介紹,希望能對您在雲數據倉庫選型時有所幫助。

正文:

雲數據倉庫的解決方案改變了我們傳統的數據平臺構建方法。您可以在沒有平臺技術專家的指導下在幾分鐘內創建並開始使用數據倉庫服務,讓企業的數據分析師及其他非技術人員訪問並處理大規模的數據以快速獲得業務洞察。企業得以在更低的成本下,讓使用者專注業務問題而不用過多考慮平臺技術的複雜性。同時,現代的雲數據倉庫服務能夠滿足更豐富的分析需求,如海量數據ETL、交互式查詢、機器學習、非結構化數據處理等,越來越多的企業考慮使用雲數據倉庫構建自己的數據分析平臺。

權威市場研究機構Forrester對數據倉庫(cloud data warehouse)的定義爲:一種按需使用的、安全的、可擴展的自助式數據倉庫,通過自動化的部署、管理、調優、備份、恢復加速數據分析過程,同時將技術支持需求降到最低。

那麼,如何企業如何選擇合適的雲數據倉庫,需要考慮哪些關鍵因素成爲很多決策者關心的問題。本文將結合TDWI的研究報告(TDWI CHECKLIST REPORT: DATA WAREHOUSING IN THE CLOUD ),分享利用雲上數據倉庫的幾項最佳實踐。

1.選擇適合你分析目的的數據倉庫平臺

在實踐中,數據倉庫逐漸涵蓋了更廣泛的功能。這些功能包括從給管理者的固定報表到給分析師的交互探索分析,再到數據科學家的預測分析。這些不同類型的應用對系統在數據訪問方式、處理計算模型、算法支持等方面都有着不同的需求。

一個有效的策略是讓數據倉庫作爲一個整體系統,不斷支持混合工作負載,而不是僅滿足特定的業務需求。例如,週期型報表需要對數據進行清洗、轉換,利用星形/雪花模型建立數據集市供報表工具使用;交互式查詢需要支持對大量數據進行並行處理實現低延遲的數據探索;預測分析需要支持不同的開發語言及算法模型、並能夠應對大規模數據的迭代計算。

基於雲的數據倉庫迎合了這樣的需求,藉助雲計算提供服務的靈活性,它使用者可以更多地關注分析和結果,而不是構建系統。

同時,考慮在雲上部署的項目往往對靈活性、敏捷性有要求。例如短時間內自助地開展分析,甚至是構建一個原型分析系統以快速驗證業務構想。對於這類項目,使用一個基於雲的數據倉庫能提供這樣的特定價值,因爲不需要設計、開發和部署平臺及數據管理框架,同時還能降低創業成本,加快分析,減少甚至消除了維護成本。

2.使用成本模型來確定雲數據倉庫何時對企業有意義

在數據倉庫的投資獲得收益之前,我麼必須要考慮管理數據倉庫的成本。然而,大多數數據從業者並沒有意識到在數據倉庫系統生命週期內,其總體擁有成本有哪些方面構成,包括:

採購成本:評估和購買硬件、存儲、軟件、網絡通信;
部署成本:如項目規劃,項目管理、系統設計、開發、配置、測試和實現;
數據開發和管理成本:包括數據抽取、數據集成應用程序的設計和開發,設計和開發實現數據倉庫數據模型;
商業機會成本:系統上線延誤對業務的影響;
運維成本:包括機房電力、製冷、機房空間、運營商網絡維護等;
經常性成本:如軟件許可證維護、系統升級,數據存檔、數據備份/恢復和災難計劃;
不同組織面對不同類型的成本的容忍度差異較大。成熟的業務可能願意投資基礎設施並能預測收益大於啓動成本。小型或新興企業,可能沒有足夠的資金來支付經常性成本,並且希望在短時間內獲取收益。

這時,您需要建議一個成本模型,決定什麼時候採用雲數據倉庫是有意義和價值的。某些情況下,選擇更敏捷的雲數據倉庫解決方案,能夠加速業務上市時間,提前帶來業務收入,增加的收入可能會超過、抵消系統的投資。

3.通過簡化應用部署流程縮短價值實現時間

基於雲的數據倉庫極大簡化了部署工作。首先,服務商提前準備好的基礎設施及軟件,用戶無需關係底層繁雜的技術工作;其次,客戶將受益於服務提供者的配套工具來支持完整的數據處理過程,包括數據接入、分析、轉換、加載、報告和查詢。利用這些工具及樣例演示可以簡化數據開發工作。第三,雲數據倉庫供應商通過集成豐富的功能,如數據管理、可視化工具、預測分析等,提供增值服務。

那麼在卸載底層基礎設施層面的任務後,客戶可以專注在數據分析本身。而在標準化數據開發部署流程時,至少應包括以下任務:

業務目標:明確企業進行數據分析的目標,並將這些數據集提供給特定的用戶;
數據需求評估:確定進入數據倉庫所需的數據集;
信息建模:考慮如何在數據倉庫中組織和表達數據;
數據集成:開發和實施將所需數據接入到數據倉庫的數據集成任務;
數據轉換:利用數據準備工具(ETL環節)實現數據加工、轉換;
業務驅動的分析:根據業務需求,確定要分析任務,交付業務的預期結果;
幸運的是,雲數據倉庫服務提供者可以支持以上這些任務的需求,例如提供數據集成工具進行數據接入,利用ETL工具或在數據倉庫中開展ETL數據加工轉換、利用作業調度管理工具編排、週期性調度數據處理邏輯。因此,採用標準化流程部署基於雲的BI/Analytics項目將極大提高處理流程的靈活性和分析結果的可訪問性。

4.尋找基於雲的集成了高級分析功能的系統

傳統的商業智能分析已經成熟,但一些雲數據倉庫廠商正在快速集成高級分析功能,包括不限於以下功能:

聚類,一種基於特徵和行爲的聚類、分羣(如客戶)的方法;
細分,一種基於先前創建的聚類模型區分實體(如供應商)的方法
分類,使用迭代算法將個人分配到一個預定義的類中,例如“最佳客戶”、“好客戶”、“中等客戶”和“不希望的客戶”;
決策樹,對決策中的不同方案進行比較,從而獲得最優方案的決策方法,用於分類或做出最佳選擇;
關聯分析,它迭代地檢查數據集中事件之間的關係,以挖掘潛在的關聯關係;
過去,您需要一個獨立的高級分析計算平臺採用使用這些功能,但現在這些功能在新型的數據倉庫中得以支持,例如:

新的架構支持混合負載,既支持傳統的查詢和報表分析,也支持高級分析;
內存計算:利用內存計算,可以顯著加速傳統的查詢分析以及高級分析中的迭代計算場景;
因此,您需要尋找支持更豐富計算功能的雲數據倉庫服務,以適應當前的數據分析需求。同時,服務提供商能夠不斷創新設計以滿足不同用戶的需求。

5.確保雲平臺滿足穩定、一致的性能要求

任何託管應用程序的風險之一是提供者依賴於使用虛擬化環境部署應用程序。這可能會降低客戶的總體運營成本。但是,應用程序可能隨時在不同的基礎硬件上重新部署,並且可能與其他應用程序共存,這些應用程序的執行可能會影響應用程序的性能。

在大多數組織中,不能滿足數據使用者進行快速分析並獲得結果,將影響數據服務被廣泛採納,從而影響項目成功。如果您的組織需要可預測的性能,請明確對性能要求的標準和可接受級別,並評估供應商確保或提升性能的方法。您應該提出如下問題:

雲數據倉庫供應商是否提供了能夠準確反映應用程序運行方式的性能基準(benchmark)?
供應商是否提供在“裸機”雲平臺而不是虛擬化平臺上部署項目的選項?
平臺是否使用了列式存儲、數據壓縮、內存計算等方式以加快查詢執行?
與服務提供商確認你的性能需求能夠得到滿足。

6.主動管理數據連接和可集成性

如果您正在考慮基於雲的BI和分析,請確認能夠在雲環境中輕鬆移動用於分析的數據。需要注意集成各種數據源類型的複雜性,這些類型可以包括普通文件(flat file)數據、使用SQL訪問的關係數據庫中的數據、在較新的NoSQL環境中管理的數據、地理空間數據以及Hadoop上的HDFS文件等多源異構數據。

主動管理數據源連接和數據集成,應考慮以下因素:

網絡連通性:考慮您所需要的每個數據源和雲數據倉庫之間網絡連接的可訪問性。
數據移動:數據倉庫容量超過標準網絡連接容量時的數據移動替代方法,這可能需要更快的連接和更大的帶寬。
數據檢查(Data profiling)和分析:對數據源數據評估潛在的異常情況,發現元數據檢查數據的可用性與完整性。
通過業務規則對數據進行標準化和轉換,進行數據準備。
使用複製和CDC(實時變更數據捕獲)方式採集數據,減輕對數據倉庫的相關開銷。
利用數據壓縮方式減少將數據從數據源移動到雲數據倉庫所需時間。
面對來自不同來源的不斷增長的數據量,用戶需要更復雜高效的數據集成方案。選擇雲數據倉庫,應尋找具備數據檢查與發現、壓縮、傳輸、數據準備和高效數據加載的數據集成服務。

7.滿足安全和數據保護要求
使用託管或基於雲的數據倉庫的另一個風險關注點是數據安全。出於兩個原因,在保證訪問安全和數據保護方面存在不確定性。首先,在某些情況下,多租戶體系結構允許多個客戶應用程序在同一環境中運行,從而引發跨應用程序邊界的數據泄漏恐懼。第二,虛擬平臺上的存儲可以分佈在多個物理機器上,這可能會讓人擔心應用程序遷移時是否有能力抓取“剩餘”數據。

顯然,您的企業必須進行盡職調查,以評估安全和數據隱私保護需求,並確保供應商能夠滿足這些需求。基於雲的數據倉庫供應商可能提供以下方法:

用戶身份驗證和用戶授權,以防止未經授權的數據訪問
細粒度數據訪問控制,以防止受保護數據屬性暴露
數據屏蔽以防止顯示受保護的數據屬性
數據加密,可應用於“靜止”或存儲位置的數據,以及訪問數據並將其傳送到用戶門戶時的“動態”數據。
數據擦除,用於完全覆蓋硬盤驅動器以防止惡意恢復

以上清單中的建議,爲確定雲數據倉庫是否適合您的組織提供了參考。一旦您決定將數據倉庫和BI應用程序轉換爲雲提供商,請確保確定正確的服務提供商。總之,這裏介紹的在評估雲數據倉庫服務時的一些標準,主要聚焦在雲數據倉庫產品和服務如何輔助提升您的BI及分析項目,包括:

•降低開發和運營的總體成本

縮短價值實現時間
減少對內部IT資源的依賴
簡化數據接收、集成和加載
通過提升易用性擴大數據使用者羣體
支持您的彈性和可擴展性需求
通過容錯和託管故障轉移實現業務連續性
建立對系統安全和私人信息保護的信任
一旦您確定了供應商,建議您與受信任的雲數據倉庫提供商建立良好的工作關係,這一點非常重要,原因有三個:

•環境的可持續性:值得信賴的合作伙伴將確保環境能夠滿足您在數據倉庫生命週期的所有階段的所有業務分析需求,以及在項目生命週期中對彈性和可擴展性、安全性和整體性能的增量需求。

•響應能力:一個有價值的服務提供商可以證明您可以信任他們及時、可靠地解決出現的任何問題。

•參與合作:尋找能夠幫助您快速構建數據平臺並與您和您的數據消費者合作的提供商,以繼續完善您BI/分析程序。

雲數據倉庫供應商可以利用他與不同客戶之間的實施經驗,將這些經驗組織起來與客戶的短期、中期和長期戰略保持一致。

結束語:

作爲阿里雲的數據倉庫產品,MaxCompute可以在較好地滿足企業對雲數據倉庫的多方面要求:

雲上數據倉庫選型指南

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章