目錄
Apache™Hadoop®項目開發了用於可靠,可擴展的分佈式計算的開源軟件。
Apache Hadoop軟件庫是一個框架,該框架允許使用簡單的編程模型跨計算機集羣對大型數據集進行分佈式處理。它旨在從單個服務器擴展到數千臺機器,每臺機器都提供本地計算和存儲。庫本身不用於依靠硬件來提供高可用性,而是被設計用來檢測和處理應用程序層的故障,因此可以在計算機集羣的頂部提供高可用性服務,每臺計算機都容易出現故障。
HDFS:Hadoop Distributed File System
Apache Hadoop是一個框架,用於在由商品硬件構建的大型集羣上運行應用程序。 Hadoop框架透明地爲應用程序提供可靠性和數據移動性。 Hadoop實現了一個名爲Map / Reduce的計算範例,其中該應用程序分爲許多小工作片段,每個小片段都可以在集羣中的任何節點上執行或重新執行。 此外,它提供了一個分佈式文件系統(HDFS),該文件系統將數據存儲在計算節點上,從而在整個羣集中提供了很高的聚合帶寬。 MapReduce和Hadoop分佈式文件系統都經過設計,因此框架可以自動處理節點故障。
該項目包括這些模塊
Hadoop Common:支持其他Hadoop模塊的通用實用程序。
Hadoop分佈式文件系統(HDFS™):提供對應用程序數據的高吞吐量訪問的分佈式文件系統。
Hadoop YARN:用於作業調度和集羣資源管理的框架。
Hadoop MapReduce:基於YARN的系統,用於並行處理大數據集。
Hadoop Ozone:Hadoop的對象存儲。
Hadoop Submarine:Hadoop的機器學習引擎。
版本:Apache Hadoop 3.2.1
Apache Hadoop 3.2.1 在以前的主要發行版本(hadoop-3.2)上進行了許多重大改進。
該版本普遍可用(GA),這意味着它代表了我們認爲已經可以投入生產的API穩定性和質量。
概述
鼓勵用戶閱讀全套發行說明。 此頁面概述了主要更改。
YARN上的Hadoop Submarine
Hadoop Submarine使數據工程師可以在數據駐留的相同Hadoop YARN集羣上輕鬆開發,訓練和部署深度學習模型(在TensorFlow中)。
Hadoop Submarine文檔中提供了更多詳細信息。
升級YARN長期服務
通過YARN本機服務API和CLI支持長期運行的容器的就地無縫升級。
YARN服務升級文檔中提供了更多詳細信息。
入門
Hadoop文檔包括開始使用Hadoop所需的信息。從單節點設置開始,該向導向您展示如何設置單節點Hadoop安裝。然後轉到“ 羣集設置”以瞭解如何設置多節點Hadoop安裝。