什麼是Azure Data Lake

作者簡介: Max Shen(阿特),爲了成爲數據專家而努力,萬一實現了呢!有多年的系統運維,數據庫運維經驗。近20年的IT從業經驗,在微軟有超過10年的工作經驗。對數據庫運維調優,排錯,有獨到能力。


備註:Blog具有時效性, 內容隨着更新會發現變化,目前時間是2017年5月12日


在Azure.com已經推出了Data Lake,就是數據湖,數據湖是什麼呢?azure已經有有數據庫,數據倉庫,數據工廠,現在有了數據湖?從字面上看,這是一個巨大的數據集合,超越了傳統意義的數據庫庫和倉庫。
大數據的視圖下我們可以看到有以下的組件和視圖。

這裏寫圖片描述

Azure Data Lake主要包含兩部分功能:

  • Azure Data Lake Store
  • Azure Data Lake Analytics

什麼是Azure Data Lake Store(數據庫存儲)

Azure Data Lake Store 是一個企業範圍的超大規模存儲庫,適用於大數據分析工作負荷。 使用 Azure Data Lake 可以在單個位置捕獲任何大小、類型和引入速度的數據進行操作和探索分析

這裏寫圖片描述

使用與 WebHDFS 兼容的 REST API,可以從 Hadoop(HDInsight 羣集提供)訪問 Azure Data Lake Store。 該服務專爲存儲數據分析而設計,並已針對數據分析方案優化了性能。 它現成地包含了現實企業用例不可或缺的所有企業級功能:安全性、可管理性、可縮放性、可靠性和可用性。

具備以下特點:

  • 專爲 Hadoop 而構建

Azure Data Lake Store 是一個 Apache Hadoop 文件系統,該系統與 Hadoop 分佈式文件系統 (HDFS) 兼容並與 Hadoop 生態系統一起工作。 採用 WebHDFS API 的現有 HDInsight 應用程序或服務可以輕鬆與 Data Lake Store 集成。 Data Lake Store 還爲應用程序公開了 WebHDFS 兼容的 REST 接口

使用 Hadoop 分析框架(例如 MapReduce 或 Hive),可以輕鬆分析 Data Lake Store 中存儲的數據。 可將 Microsoft Azure HDInsight 羣集預配和配置爲直接訪問 Data Lake Store 中存儲的數據。

  • 無限存儲空間,PB 量級的文件

Azure Data Lake Store 提供無限存儲空間,適合用於存儲各種分析數據。 帳戶大小、文件大小或 Data Lake 中可存儲的數據量均無任何限制。 支持 KB 到 PB 量級的單個文件大小,非常適合用於存儲任何類型的數據。 通過創建多個副本來長期存儲數據,數據在 Data Lake 中的存儲持續時間沒有限制。

  • 針對大數據分析優化了性能

Azure Data Lake Store 旨在運行需要利用超大吞吐量查詢和分析海量數據的大規模分析系統。 Data Lake 將文件的各個部分散在大量獨立的存儲服務器中。 這可改善執行數據分析時並行讀取文件的吞吐量。

  • 隨時可供企業使用:高度可用且安全

Azure Data Lake Store 提供符合行業標準的可用性和可靠性。 數據資產可通過創建冗餘副本來長期存儲,防範任何意外的故障。 企業可以在其解決方案中使用 Azure Data Lake 作爲現有數據平臺的重要組成部分。

  • 所有數據

Azure Data Lake Store 可按本機格式(原樣)存儲任何數據,不需要事先經過轉換。 加載數據之前,Data Lake Store 不需要定義架構,而是等待獨立的分析框架在分析時解釋數據和定義架構。 Data Lake Store 能夠存儲任意大小和格式的文件,因此可以處理結構化、半結構化和非結構化數據。

Azure Data Lake Store 的數據容器本質上是文件夾和文件。 可以使用 SDK、Azure 門戶和 Azure Powershell 來處理存儲的數據。 只要使用這些接口和相應容器將數據放入存儲,就能存儲任何類型的數據。 Data Lake Store 不會根據其存儲的數據類型對數據執行任何特殊處理。

什麼是Azure Data Lake Analytics

Azure Data Lake Analytics 是一項按需分析作業服務,用於簡化大數據分析。 集中精力編寫、運行和管理作業,不用運行分佈式基礎結構。 無需部署、配置和調整硬件,只需編寫查詢即可轉換數據並提取有價值的見解。 通過將錶盤設置爲所需值,該分析服務就可以立即處理任何規模的作業。 只需爲運行作業付費,讓服務變得更爲經濟高效。 該分析服務支持 Azure Active Directory,讓用戶可管理訪問和角色,並與用戶的本地識別系統集成。 它還包括了 U-SQL 語言,有效結合了 SQL 的優點和用戶代碼的表達力。 U-SQL 的可縮放分佈式運行時可讓用戶高效地分析存儲中的數據,以及跨 Azure 中的 SQL Server、Azure SQL 數據庫和 Azure SQL 數據倉庫的數據。

具備的關鍵功能如下:

  • 動態縮放

Data Lake Analytics 是針對雲縮放和性能需求進行構建的。 它能動態地預配資源並讓你以千吉字節甚至百億億字節爲單位進行分析。 當作業完成時,它自動釋放資源,你僅需爲所用的處理功能付費。 增加或減少存儲數據的大小或使用的計算量時,不需要重寫代碼。 用戶可僅關注自己的業務邏輯,而非如何處理和存儲大數據集。

  • 使用熟悉的工具更快開發、更智能調試和優化

Data Lake Analytics 與 Visual Studio 深度集成,從而你可以使用熟悉的工具運行、調試和調整你的代碼。 U-SQL 作業可視化允許你看見你的代碼如何大規模運行,因此你可以輕鬆找到性能瓶頸並優化成本。

  • U-SQL:簡單熟悉、功能強大且易於擴展

Data Lake Analytics 包含 U-SQL,這是一種查詢語言,擴展了 SQL 的簡單熟悉的聲明性本質和 C# 的表現力。 U-SQL 語言基於在 Microsoft 內部支持大數據系統的同一分佈式運行時。 現在,數以百萬計的 SQL 和 .NET 開發人員可以憑藉自身已有的技能處理和分析自己的數據。

  • 與你的 IT 投資無縫集成

Data Lake Analytics 可以使用你現有的 IT 投資進行識別、管理、安全和數據倉庫工作來應對這個挑戰。 這樣就簡化了數據管理,使你當前的數據應用程序更容易擴展。 Data Lake Analytics 與適用於用戶管理和權限的 Active Directory 集成且隨附內置監視與審覈功能。

  • 價格合理且經濟高效

Data Lake Analytics 是用於運行大數據工作負荷的經濟高效的解決方案。 處理數據時按每個作業付費。 無需硬件、許可證或服務特定的支持協議。 作業開始和完成時,系統自動縮放大小,這意味着你永遠無需爲你所需之外的東西付費。

  • 可用於所有 Azure 數據

Data Lake Analytics 已針對搭配使用 Azure Data Lake 而優化,可爲大數據工作負荷提供最高級別的性能、吞吐量和並行化。 Data Lake Analytics 還可與 Azure Blob 存儲和 Azure SQL 數據庫搭配使用。

後序

從介紹只能瞭解其核心,需要是實踐才能看到Data Lake的能量,我們一起去實踐吧。

發佈了139 篇原創文章 · 獲贊 60 · 訪問量 37萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章