Hadoop【从无到有从有到无】【H1】简介

目录

概述

YARN中的节点属性支持

YARN上的Hadoop Submarine

存储策略满意度

ABFS文件系统连接器

增强型S3A连接器

升级YARN长期服务

入门

参考


Apache™Hadoop®项目开发了用于可靠,可扩展的分布式计算的开源软件。

Apache Hadoop软件库是一个框架,该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不用于依靠硬件来提供高可用性,而是被设计用来检测和处理应用程序层的故障,因此可以在计算机集群的顶部提供高可用性服务,每台计算机都容易出现故障。

 

HDFS:Hadoop Distributed File System

Apache Hadoop是一个框架,用于在由商品硬件构建的大型集群上运行应用程序。 Hadoop框架透明地为应用程序提供可靠性和数据移动性。 Hadoop实现了一个名为Map / Reduce的计算范例,其中该应用程序分为许多小工作片段,每个小片段都可以在集群中的任何节点上执行或重新执行。 此外,它提供了一个分布式文件系统(HDFS),该文件系统将数据存储在计算节点上,从而在整个群集中提供了很高的聚合带宽。 MapReduce和Hadoop分布式文件系统都经过设计,因此框架可以自动处理节点故障。

该项目包括这些模块

Hadoop Common:支持其他Hadoop模块的通用实用程序。
Hadoop分布式文件系统(HDFS™):提供对应用程序数据的高吞吐量访问的分布式文件系统。
Hadoop YARN:用于作业调度和集群资源管理的框架。
Hadoop MapReduce:基于YARN的系统,用于并行处理大数据集。
Hadoop Ozone:Hadoop的对象存储。
Hadoop Submarine:Hadoop的机器学习引擎。

 

版本:Apache Hadoop 3.2.1

 

Apache Hadoop 3.2.1 在以前的主要发行版本(hadoop-3.2)上进行了许多重大改进。

该版本普遍可用(GA),这意味着它代表了我们认为已经可以投入生产的API稳定性和质量。

 

概述

鼓励用户阅读全套发行说明。 此页面概述了主要更改。

YARN中的节点属性支持

节点属性有助于根据节点的属性在节点上标记多个标签,并支持基于这些标签的表达来放置容器。

Node Attributes文档中提供了更多详细信息。

YARN上的Hadoop Submarine

Hadoop Submarine使数据工程师可以在数据驻留的相同Hadoop YARN集群上轻松开发,训练和部署深度学习模型(在TensorFlow中)。

Hadoop Submarine文档中提供了更多详细信息。

存储策略满意度

支持HDFS(Hadoop分布式文件系统)应用程序,以便在文件/目录上设置存储策略时在存储类型之间移动块。

 Storage Policy Satisfier文档中提供了更多详细信息。

ABFS文件系统连接器

支持最新的Azure Datalake Gen2存储。

增强型S3A连接器

支持增强的S3A连接器,包括对受限制的AWS S3和DynamoDB IO的更好的弹性。

升级YARN长期服务

通过YARN本机服务API和CLI支持长期运行的容器的就地无缝升级。

YARN服务升级文档中提供了更多详细信息。

入门

Hadoop文档包括开始使用Hadoop所需的信息。从单节点设置开始,该向导向您展示如何设置单节点Hadoop安装。然后转到“ 群集设置”以了解如何设置多节点Hadoop安装。

 

参考

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章