春日遊湖不易，但居家聊聊數據湖還是可以的……

其實“數據湖”的概念由來已久，如果追溯時間大概可以到2011年。

如今我們經常提及的數據湖其實可以被認爲是一個集中式的安全存儲庫，用戶可以任何規模存儲、管理、發現並共享所有結構化和非結構化數據，過程中無需預定義架構。

具體來說，從目前數據湖的實踐情況來看，集中放入其中的數據基本上可歸結爲三種類型，分別爲來自業務系統的結構化且價值較高的數據，雖然數據不大並關係複雜；日誌類的龐大體量運維數據，儘管價值並不高但在企業IT架構正常運轉中不可或缺；以及以音頻、視頻等非結構化形式著稱的其他數據，本身價值凸顯但被聚合分析的機率較小。

通常，不同類別的數據需要憑藉差異化的存儲設備進行保存，如今需要被放到一個池子中還能被提供各種不同的接口完成調用，的確挑戰頗多，而數據湖恰好應對了這一點，即藉助數據湖可以在合適的時間將對的數據提供給正確的人，不必費心管理存儲數據的不同位置訪問，還能對數據機密性與安全性提供有力的保障，何樂而不爲？

更多關於數據湖的周邊有哪些？

據Aberdeen的一項調查數據表明，實施數據湖的組織比同類公司在有機收入增長方面高出9%。究其原因，數據湖不單單可以解決便捷存儲數據的問題，同時還能做到兼容傳統數據倉庫的分析方法並嘗試新類型分析，例如通過日誌文件、來自點擊流的數據、社交媒體以及存儲在數據湖中的互聯網連接設備等新來源的機器學習，以此作出智能決策。

可以想見，數據湖作爲機器學習和人工智能的強大基礎，可以幫助機器學習使用從現有數據中學習的統計算法，也被稱之爲訓練過程，來做出有關新數據的決策。具體來說，在訓練期間將識別數據中的模式和關係以建立模型，而模型就成爲決策智能的關鍵所在，所以數據湖的雙特性其實非常適用於數據科學家以及研究人員進行探索性的數據查詢與分析，進行一些研究性、前瞻性的服務。

談了如此多有關數據湖的驚豔之處，究竟在技術層面，數據湖與現今經常被提起的數據庫、數據倉庫甚至是數據中臺關係如何？衆所周知，數據庫被定位於一個單一的數據應用，將數據存儲其中，有關係型與非關係型之分；而數據倉庫則是一個優化的數據庫形式，用於分析來自事務系統和業務線應用程序的關係數據，事先定義數據結構和 Schema 以優化快速 SQL 查詢，其中結果通常用於操作報告和分析。

其實在數據倉庫之前還有數據集市的概念，大多數部門級別的數據均可放入其中，但晶少認爲更多針對數據倉庫的定義還是企業級，規模較大，也是企業IT不可忽視的內容，但由於數據倉庫的要求比較侷限，不能夠適應快速發展的數據變化，數據湖時代也就應運到來了；相比之下，與數據倉庫明顯差異，數據湖的數據存儲主要來自業務線應用程序的關係數據以及移動應用程序、IoT 設備和社交媒體的非關係數據。捕獲數據時，未定義數據結構或 Schema，可以存儲所有數據並使用不同類型的分析（如 SQL 查詢、大數據分析、全文搜索、實時分析和機器學習）來獲得相應的見解。

談畢數據庫與數據倉庫，面對時下火熱的數據中臺， AWS首席雲計算企業戰略顧問張俠則表示，其實數據中臺並不是數據行業的專門術語，更像是互聯網時代關於應用架構的專業名詞。

總結一下，數據湖的大力湧現更多得力於雲計算技術提供的海量存儲以及大量方便、高性能計算的可能性，換句話說也正是因爲雲帶來的技術創新纔有了數據湖的橫空出世。

AWS數據湖服務幾多詳情價值？

當雲計算還處於懵懂年紀，AWS就已經傾力拉開了這場以技術變革爲主旋律的開場大戲，掐指一算從2006年至今也已走過了十幾個年頭，在此過程中針對數據湖的探索更是持續不斷並層出不窮。概括來說，AWS將數據湖有機拆分成數據導入、數據分析以及數據保存等幾大步驟，伴隨湧現出對應數據遷移專家服務、Amazon S3等存儲服務以及Amazon RedShift等爲主打的分析類服務，儼然將數據湖本身定位於一種解決方案。

我們看到，AWS數據湖服務主要基於對象存儲服務S3構建。Amazon S3作爲一種高持久性、經濟高效的對象存儲服務可支持開放數據格式，同時將存儲與計算解耦，並可做到與所有AWS技術矩陣中的分析服務集成使用。據晶少了解，Amazon S3提供了11個9的耐用性，高彈性的3個可用區架構，以及更多區域複製選項與分離，並擁有獨立擴展存儲和計算能力，從而爲數據湖提供了最佳存儲層。

仔細探究之後我們發現，其實數據的生命週期中包含很多內容，更多需要對原始數據進行最大程度的合理管控設計等，在源頭上保證數據質量。“數據可以率先存儲在Amazon S3中，依照數據不同的量級、特點以及性質加以處理，這是一種自動的生命週期管理功能。”張俠總結道。

值得提及的是，在AWS龐大全面的數據湖服務中，有一種名爲AWS Athena的交互式查詢服務獨具風格。談及特殊，主要是其採用了時下風靡的無服務器架構，可以做到無需設置或管理基礎設施就可輕鬆使用標準 SQL 直接分析來自 Amazon S3 的數據，也沒有複雜的 ETL 過程。

據瞭解，Athena 服務使用了 Presto，即一種分佈式 SQL 引擎來運行查詢；採用Apache Hive來創建、放置和修改表與分區，可快速在查詢編輯器中編寫符合 Hive 規範的 DDL 語句以及 ANSI SQL 語句；此外還可以在其上使用複雜的聯結、窗口函數以及複雜的數據類型等。由於Athena 使用一種稱爲讀時模式(schema-on-read) 的方法，如此可以在執行查詢時便捷地將 schema 投射到目標數據上。

另外，同樣作爲Amazon S3 數據湖的重要組成部分之一，AWS Glue與AWS Athena一樣也沾了無服務器技術的光，具有無服務器託管、操作的功能，爲現代數據分析提供了數據目錄和轉換服務。

總體來說這是一種完全託管的數據目錄和 ETL（提取、轉換和加載）服務，可做到簡化和自動化數據發現、轉換和作業調度中難度較大且耗時的任務。畢竟據觀察用戶在使用數據湖架構實現數據分析解決方案時，通常有75%的時間花在數據集成任務上，需要從各種數據源提取數據，對其進行規範化，並將其加載到數據存儲中，而AWS Glue則消除了ETL作業基礎設施方面的所有重複勞動。

晶少獲悉，AWS Glue使用過程中能夠識別常用數據格式和數據類型的預構建分類器(classifiers)抓取數據源並構建數據目錄，主要包括 CSV、Apache Parquet、JSON 等；能夠做到跨各種服務創建統一的元數據存儲庫、抓取數據源以發現schema並使用新的和修改後的表與分區定義填充數據目錄並做到維護schema版本控制；此外還可以使用其完全託管的 ETL 功能來轉換數據或將其轉化爲列格式，以優化成本並提高性能。總體來說，通過簡化創建ETL作業的過程，AWS Glue讓用戶可以構建可伸縮、可靠的數據準備平臺，這些平臺可以跨越數千個ETL作業，具有內置的依賴性解析、調度、資源管理和監控功能，更容易跨越各種數據存儲，檢索和管理所有數據，而不必手動搬運。

更值得關注的一點，AWS Glue可以和AWS Lambda以及AWS Step Functions這些無服務器服務整合在一起，並做到與機器學習和人工智能技術相結合，包括與Amazon SageMaker協同完成更多自動預測性分析，這一點比較驚豔。對此張俠表示，如今AWS已經有100多種服務來支持任何數據湖用例，更多的無服務器就地查詢與處理選項可縮短獲得結果的時間並降低數據洞察的成本。

“隨着AWS Glue在由西雲數據運營的AWS中國（寧夏）區域正式上線，中國區域的客戶可以輕鬆地從任意多的數據源傳輸和處理數據，整合數據到數據湖並且可以選用多種AWS分析服務並迅速開始分析所有數據。”AWS全球副總裁及大中華區執行董事張文翊總結道。

談到更多服務上線支持數據湖用例的情況，其實早在去年8月，AWS就發佈了一項名爲AWS Lake Formation的新服務，儘管目前還未在中國區上線投入使用，但卻廣受業內關注，主要由於該服務將在簡化數據湖出創建過程方面助力頗多。

例如原本幾月內的創建工作可在幾天內完成，並完成從數據庫和對象存儲中收集和分類數據，將數據移至新的Amazon S3數據湖中，使用機器學習算法對數據進行清理和分類以及安全訪問敏感數據等相關工作。

技術細節上，AWS Lake Formation通過識別S3或者關係數據庫和NoSQL數據庫中存儲的現有數據並將其移動到數據湖中；此後對數據進行抓取、編目以及準備來進行有關分析，藉此讓用戶通過其選擇的分析服務安全自助訪問數據，此外其他AWS服務和第三方應用程序也可以通過顯示的服務方式達成訪問數據的目標。至此數據湖服務最主要的三大要素，即Amazon S3/Glacier、AWS Glue以及AWS Lake Formation全部集齊待發。

談及這麼多AWS數據湖服務的技術細節之後，想必更多看官十分關心一點：究竟哪些體量或者級別的企業適合使用數據湖？對此，張俠認爲其實各種規模以及領域的企業都可採用數據湖的思路來搭建內部的數據應用平臺，只是相比於中小企業，大型企業利用此做更多、更復雜的數據分析工作而已。就AWS內部業務的數據湖部署爲例，本質就是更多將每天多達60萬的分析任務，涉及用戶推薦、運營信息、庫存情況以及購買等環節，通過數據湖服務進行高效分析並作爲核心競爭力延續至今。

另外據晶少知曉，2016年由嘉雲數據在杭州成立的Club Factory，也一直使用AWS數據湖服務來做數據關聯，爲客戶在全球尋找各種各樣的產品。

即每天處理15億條各種行爲分析，支撐180個數據調動分析任務，以此來達成用戶產品推介、內部運營分析以及供應商的管理創新等目標。當然，其實這樣的實例還有很多，比如用戶超三千萬的小紅書使用AWS數據湖存儲海量的日誌數據和來自社區的圖片、評論、表情等非結構化數據來分析用戶的喜好；千萬用戶級別的流利說通過使用AWS數據湖建立了大型“中國人英語語音數據庫”，在此基礎上開發英語口語評測、英語寫作打分引擎和深度自適應學習系統等。

從2011年發展至今，數據湖從零散的開源解決方案到目前AWS將服務整合爲關鍵、統一、標準的解決方案，其應用性越來越強；可想而知當物聯網、5G、邊緣計算等新技術全面爆發之時，數據湖針對數據存儲與分析的事兒就真正到了認真探討與好好研究的關鍵階段了，在此期間還會有更多數據智能挖掘的驚喜如期而至。

春日遊湖不易，但居家聊聊數據湖還是可以的……

更多關於數據湖的周邊有哪些？

AWS數據湖服務幾多詳情價值？

[轉帖]

python列出centos7內存使用前50的進程信息

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

中國軟件產業年會發佈會在京盛大舉行！

TPC-C中跑贏Oracle的OceanBase，最近有何驚豔？

超越，由此開啓——2019甲骨文雲大會在上海盛大開幕！

華爲雲TaurusDB計算存儲分離架構：讓數據“身”分離，“心”凝聚

OpenStack非但沒涼，革新U版本竟燃起來，原來還有TA的功勞？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結