再談數據湖3.0：降本增效背後的創新原動力

簡介：越來越多企業選擇數據湖作爲企業數據存儲、管理的解決方案。同時，數據湖的應用場景也在不斷髮展，各行各業都在雲上構建數據湖，從一開始的簡單分析，到互聯網搜索推廣和深度分析以及近兩年大規模的AI訓練，都是基於數據湖架構進行的。

前言：

2022年3月 31 日，阿里雲全球數據湖峯會上，阿里雲從“湖管理、湖存儲和湖計算“這三個方面，爲觀衆帶來了“數據湖 3.0” 的重磅升級方案。在時隔兩百多天的雲棲大會上，阿里雲存儲對數據湖的能力，進行了再次升級。

數據湖是以集中方式存儲各種類型數據，提供彈性的容量和吞吐能力，能夠覆蓋廣泛的數據源，支持多種計算與處理分析引擎直接對數據進行訪問的統一存儲平臺。能夠實現數據分析、機器學習，數據訪問和管理等細粒度的授權、審計等功能。

越來越多企業選擇數據湖作爲企業數據存儲、管理的解決方案。同時，數據湖的應用場景也在不斷髮展，各行各業都在雲上構建數據湖，從一開始的簡單分析，到互聯網搜索推廣和深度分析以及近兩年大規模的AI訓練，都是基於數據湖架構進行的。

一、存算分離，數據冷熱智能分層

目前，有很多阿里雲客戶的雲上數據湖規模已經超過了100PB，所以可以預見，基於數據湖的數據分析架構是一個不可阻擋的未來發展趨勢。那麼爲什麼會需要這樣的架構呢？

阿里巴巴集團研究員、阿里雲智能資深產品總監Alex Chen認爲，究其原因，是因爲企業無時無刻地不在產生數據，這些數據需要進行分析，才能激活它的價值。數據分析可以分爲實時性分析和探索性分析。實時性分析是用已知數據回答已知問題；探索性分析是用已知數據回答未知問題，所以需要預先把數據都保存下來，這無疑會增加許多存儲費用。

爲了壓縮存儲成本，阿里雲選擇了存算分離架構，這種架構提供了獨立的擴展性。客戶可以做到數據入湖，計算引擎按需擴容，這樣的解耦方式會得到更高的性價比。阿里雲對象存儲OSS是數據湖的統一存儲層，可對接各類業務應用、計算分析平臺。

在雲棲大會上，阿里雲存儲正式發佈了對象存儲OSS的深度冷歸檔類型，價格僅爲0.0075元/GB/月，是業界最低成本的雲存儲類型。選用基於最後一次訪問時間的生命週期規則，可實現由服務端根據最後訪問時間來自動識別冷熱數據，並實現數據分層存儲。即使一個桶（Bucket）裏面有多個對象（Object），也可以根據最後一次修改時間或者訪問時間，對於每個對象，每個文件去做生命週期管理。

對象存儲OSS的歸檔或冷歸檔類型的Object，需要解凍（Restore）之後才能讀取。歸檔類型Object解凍完成通常需要數分鐘，冷歸檔類型Object根據不同解凍優先級，解凍完成通常需要數小時，這給一些用戶帶來了很大的困擾。

爲了讓用戶可以直接讀取歸檔/冷歸檔存儲，對象存儲OSS新增歸檔直讀能力，數據無需解凍，直接訪問。同時採用數據生命週期管理策略和OSS深度冷歸檔類型降本增效，可以讓整個數據湖成本降低95%。

二、多協議兼容，一份數據支持多種應用

隨着AI、IoT、雲原生技術的發展，對於非結構化數據處理的需求越來越強烈。使用雲上對象存儲作爲統一存儲的趨勢越來越明顯。Hadoop的體系也逐漸由HDFS爲統一存儲，發展爲雲上像S3、OSS這樣的雲存儲，作爲統一存儲的數據湖體系。現在，數據湖已經進入3.0 時代。在存儲上，以對象存儲爲中心，實現了多協議全兼容、統一元數據管理；在管理上，面向湖存儲+計算的一站式湖構建和管理，做到智能“建湖”和“治湖”。

阿里雲智能資深產品專家彭亞雄指出，數據湖3.0架構下，提供了全兼容的HDFS服務化能力，用戶不再需要搭建元數據管理集羣，輕鬆實現自建HDFS向數據湖架構遷移。同時，原生具備多協議的接入能力及多種元數據的統一管理，實現HDFS與對象存儲底層的無縫融合，讓數據在多種生態間高效統一流入、管理、使用，幫助用戶加速業務創新。100Gbps/PB的讀寫能力可以進一步提升數據處理效率。

數據分析架構的引擎是在不斷迭代的，在AI、自動駕駛場景中，需要讓一份數據被多種應用共享。對象存儲OSS作爲雲上數據湖的統一存儲底座，提供低成本、可靠的海量數據存儲能力。文件存儲CPFS與對象存儲OSS實現了深度集成，當需要進行推理、仿真這種高性能運算時，通過CPFS可實現對OSS中數據的快速訪問和分析，做到數據按需流動和block級別的Lazyload（延遲加載）。

此外，文件存儲CPFS支持通過POSIX客戶端或NFS客戶端兩種方式掛載訪問文件系統，同時支持通過這兩種客戶端互相訪問，讓海量小文件訪問起來毫無壓力。

三、雲上雲下互通，業務敏捷創新

隨着雲計算的蓬勃發展，越來越多的IT系統基礎設施轉移到雲上，數據正在遠離企業數據中心。據統計，80%的數據產生在數據中心之外。這個時候，企業數據可以通過RESTful API或者HTTP、VPN的方法來傳輸到自己的數據中心，也可以傳到雲上。

構建企業數據湖的時候，可以首先使用數據湖構建DLF來完成數據的入湖和元數據的管理，然後通過日誌服務SLS，將全球數據實時投遞到數據湖中的OSS，再充分發揮OSS的能力，實現數據的冷熱分層，從而使整體的數據湖方案能夠達到降本增效的目的。

爲了便於管理數據，雲上和本地數據中心不僅需要統一的命名空間，還需要數據互通。在數據互通的情況，可以把算力隨時從線下調到雲上，按需分配。當然，實現這些的前提是，傳統應用和新興應用（如IOT、BigData、AI）的數據可以融合在一起。通過混合雲IT架構無縫上雲已成爲企業應用的新常態，混合雲存儲將成爲架起本地數據中心和公共雲的橋樑，也已經成爲數據湖整體方案不可或缺的部分。

數據湖是面向未來的大數據架構。只有做到文件對象融會貫通、冷熱數據智能分層、雲上雲下數據互通的數據湖，纔是擁有廣闊前景的數據湖。目前，阿里雲3.0數據湖解決方案已經在互聯網、金融、教育、遊戲等技術前沿領域落地，在人工智能、物聯網、自動駕駛等擁有海量數據場景的行業得到了廣泛應用。未來，阿里雲希望同夥伴一起，將雲原生數據湖滲透到千行百業，推動更多企業實現數字創新。

原文鏈接：https://click.aliyun.com/m/1000363219/

本文爲阿里雲原創內容，未經允許不得轉載。

再談數據湖3.0：降本增效背後的創新原動力

一、存算分離，數據冷熱智能分層

二、多協議兼容，一份數據支持多種應用

三、雲上雲下互通，業務敏捷創新

Serverless Devs 重大更新，基於 Serverless 架構的 CI/CD 框架：Serverless-cd

5個編寫技巧，有效提高單元測試實踐

使用EasyCV Mask2Former輕鬆實現圖像分割

通過定時SQL提取阿里雲API網關訪問日誌指標

「開源人說」| 雲原生時代，做不忘初心開源牧馬人

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結