目录
Apache™Hadoop®项目开发了用于可靠,可扩展的分布式计算的开源软件。
Apache Hadoop软件库是一个框架,该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不用于依靠硬件来提供高可用性,而是被设计用来检测和处理应用程序层的故障,因此可以在计算机集群的顶部提供高可用性服务,每台计算机都容易出现故障。
HDFS:Hadoop Distributed File System
Apache Hadoop是一个框架,用于在由商品硬件构建的大型集群上运行应用程序。 Hadoop框架透明地为应用程序提供可靠性和数据移动性。 Hadoop实现了一个名为Map / Reduce的计算范例,其中该应用程序分为许多小工作片段,每个小片段都可以在集群中的任何节点上执行或重新执行。 此外,它提供了一个分布式文件系统(HDFS),该文件系统将数据存储在计算节点上,从而在整个群集中提供了很高的聚合带宽。 MapReduce和Hadoop分布式文件系统都经过设计,因此框架可以自动处理节点故障。
该项目包括这些模块
Hadoop Common:支持其他Hadoop模块的通用实用程序。
Hadoop分布式文件系统(HDFS™):提供对应用程序数据的高吞吐量访问的分布式文件系统。
Hadoop YARN:用于作业调度和集群资源管理的框架。
Hadoop MapReduce:基于YARN的系统,用于并行处理大数据集。
Hadoop Ozone:Hadoop的对象存储。
Hadoop Submarine:Hadoop的机器学习引擎。
版本:Apache Hadoop 3.2.1
Apache Hadoop 3.2.1 在以前的主要发行版本(hadoop-3.2)上进行了许多重大改进。
该版本普遍可用(GA),这意味着它代表了我们认为已经可以投入生产的API稳定性和质量。
概述
鼓励用户阅读全套发行说明。 此页面概述了主要更改。
YARN上的Hadoop Submarine
Hadoop Submarine使数据工程师可以在数据驻留的相同Hadoop YARN集群上轻松开发,训练和部署深度学习模型(在TensorFlow中)。
Hadoop Submarine文档中提供了更多详细信息。
升级YARN长期服务
通过YARN本机服务API和CLI支持长期运行的容器的就地无缝升级。
YARN服务升级文档中提供了更多详细信息。
入门
Hadoop文档包括开始使用Hadoop所需的信息。从单节点设置开始,该向导向您展示如何设置单节点Hadoop安装。然后转到“ 群集设置”以了解如何设置多节点Hadoop安装。