再談數據湖3.0:降本增效背後的創新原動力

簡介: 越來越多企業選擇數據湖作爲企業數據存儲、管理的解決方案。同時,數據湖的應用場景也在不斷髮展,各行各業都在雲上構建數據湖,從一開始的簡單分析,到互聯網搜索推廣和深度分析以及近兩年大規模的AI訓練,都是基於數據湖架構進行的。

前言:

2022年3月 31 日,阿里雲全球數據湖峯會上,阿里雲從“湖管理、湖存儲和湖計算“這三個方面,爲觀衆帶來了“數據湖 3.0” 的重磅升級方案。在時隔兩百多天的雲棲大會上,阿里雲存儲對數據湖的能力,進行了再次升級。

數據湖3.0.jpg

數據湖是以集中方式存儲各種類型數據,提供彈性的容量和吞吐能力,能夠覆蓋廣泛的數據源,支持多種計算與處理分析引擎直接對數據進行訪問的統一存儲平臺。能夠實現數據分析、機器學習,數據訪問和管理等細粒度的授權、審計等功能。

數據湖應用.png

越來越多企業選擇數據湖作爲企業數據存儲、管理的解決方案。同時,數據湖的應用場景也在不斷髮展,各行各業都在雲上構建數據湖,從一開始的簡單分析,到互聯網搜索推廣和深度分析以及近兩年大規模的AI訓練,都是基於數據湖架構進行的。

 

一、存算分離,數據冷熱智能分層

 

目前,有很多阿里雲客戶的雲上數據湖規模已經超過了100PB,所以可以預見,基於數據湖的數據分析架構是一個不可阻擋的未來發展趨勢。那麼爲什麼會需要這樣的架構呢?

 

阿里巴巴集團研究員、阿里雲智能資深產品總監Alex Chen認爲,究其原因,是因爲企業無時無刻地不在產生數據,這些數據需要進行分析,才能激活它的價值。數據分析可以分爲實時性分析和探索性分析。實時性分析是用已知數據回答已知問題;探索性分析是用已知數據回答未知問題,所以需要預先把數據都保存下來,這無疑會增加許多存儲費用。

Alex.jpg

爲了壓縮存儲成本,阿里雲選擇了存算分離架構,這種架構提供了獨立的擴展性。客戶可以做到數據入湖,計算引擎按需擴容,這樣的解耦方式會得到更高的性價比。阿里雲對象存儲OSS是數據湖的統一存儲層,可對接各類業務應用、計算分析平臺。

 

在雲棲大會上,阿里雲存儲正式發佈了對象存儲OSS的深度冷歸檔類型,價格僅爲0.0075元/GB/月,是業界最低成本的雲存儲類型。選用基於最後一次訪問時間的生命週期規則,可實現由服務端根據最後訪問時間來自動識別冷熱數據,並實現數據分層存儲。即使一個桶(Bucket)裏面有多個對象(Object),也可以根據最後一次修改時間或者訪問時間,對於每個對象,每個文件去做生命週期管理。

數據冷熱分層.png

對象存儲OSS的歸檔或冷歸檔類型的Object,需要解凍(Restore)之後才能讀取。歸檔類型Object解凍完成通常需要數分鐘,冷歸檔類型Object根據不同解凍優先級,解凍完成通常需要數小時,這給一些用戶帶來了很大的困擾。

 

爲了讓用戶可以直接讀取歸檔/冷歸檔存儲,對象存儲OSS新增歸檔直讀能力,數據無需解凍,直接訪問。同時採用數據生命週期管理策略和OSS深度冷歸檔類型降本增效,可以讓整個數據湖成本降低95%

 

二、多協議兼容,一份數據支持多種應用

 

隨着AI、IoT、雲原生技術的發展,對於非結構化數據處理的需求越來越強烈。使用雲上對象存儲作爲統一存儲的趨勢越來越明顯。Hadoop的體系也逐漸由HDFS爲統一存儲,發展爲雲上像S3、OSS這樣的雲存儲,作爲統一存儲的數據湖體系。現在,數據湖已經進入3.0 時代。在存儲上,以對象存儲爲中心,實現了多協議全兼容、統一元數據管理;在管理上,面向湖存儲+計算的一站式湖構建和管理,做到智能“建湖”和“治湖”。

數據湖3.0架構圖.png

阿里雲智能資深產品專家彭亞雄指出,數據湖3.0架構下,提供了全兼容的HDFS服務化能力,用戶不再需要搭建元數據管理集羣,輕鬆實現自建HDFS向數據湖架構遷移。同時,原生具備多協議的接入能力及多種元數據的統一管理,實現HDFS與對象存儲底層的無縫融合,讓數據在多種生態間高效統一流入、管理、使用,幫助用戶加速業務創新。100Gbps/PB的讀寫能力可以進一步提升數據處理效率。

多級存儲.jpg

數據分析架構的引擎是在不斷迭代的,在AI、自動駕駛場景中,需要讓一份數據被多種應用共享。對象存儲OSS作爲雲上數據湖的統一存儲底座,提供低成本、可靠的海量數據存儲能力。文件存儲CPFS與對象存儲OSS實現了深度集成,當需要進行推理、仿真這種高性能運算時,通過CPFS可實現對OSS中數據的快速訪問和分析,做到數據按需流動和block級別的Lazyload(延遲加載)。

 

此外,文件存儲CPFS支持通過POSIX客戶端或NFS客戶端兩種方式掛載訪問文件系統,同時支持通過這兩種客戶端互相訪問,讓海量小文件訪問起來毫無壓力。

 

三、雲上雲下互通,業務敏捷創新

 

隨着雲計算的蓬勃發展,越來越多的IT系統基礎設施轉移到雲上,數據正在遠離企業數據中心。據統計,80%的數據產生在數據中心之外。這個時候,企業數據可以通過RESTful API或者HTTP、VPN的方法來傳輸到自己的數據中心,也可以傳到雲上。

 

構建企業數據湖的時候,可以首先使用數據湖構建DLF來完成數據的入湖和元數據的管理,然後通過日誌服務SLS,將全球數據實時投遞到數據湖中的OSS,再充分發揮OSS的能力,實現數據的冷熱分層,從而使整體的數據湖方案能夠達到降本增效的目的。

數據湖降本增效.png

爲了便於管理數據,雲上和本地數據中心不僅需要統一的命名空間,還需要數據互通。在數據互通的情況,可以把算力隨時從線下調到雲上,按需分配。當然,實現這些的前提是,傳統應用和新興應用(如IOT、BigData、AI)的數據可以融合在一起。通過混合雲IT架構無縫上雲已成爲企業應用的新常態,混合雲存儲將成爲架起本地數據中心和公共雲的橋樑,也已經成爲數據湖整體方案不可或缺的部分。

 

數據湖是面向未來的大數據架構。只有做到文件對象融會貫通、冷熱數據智能分層、雲上雲下數據互通的數據湖,纔是擁有廣闊前景的數據湖。目前,阿里雲3.0數據湖解決方案已經在互聯網、金融、教育、遊戲等技術前沿領域落地,在人工智能、物聯網、自動駕駛等擁有海量數據場景的行業得到了廣泛應用。未來,阿里雲希望同夥伴一起,將雲原生數據湖滲透到千行百業,推動更多企業實現數字創新。

原文鏈接:https://click.aliyun.com/m/1000363219/

本文爲阿里雲原創內容,未經允許不得轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章