hadoop是什么
apache hadoop是apache旗下的一套开源的软件平台。
hadoop是一套高可靠的、可扩展的、分布式的计算开源软件。hadoop软件库是一个框架,使用简单的编程模型跨计算机集群分布式处理大型的数据集(海量数据)。
hadoop的功能:利用服务器集群,根据用户自定义的业务逻辑,对海量数据进行分布式处理。
hadoop核心模块:
hadoop common:支持其他hadoop模块的通用工具。
HDFS:hadoop的分布式文件系统,可提供对应用程序数据的高吞吐量访问。
YARN:分布式作业调度系统。
mapreduce:一种用于并行处理大型数据集的基于YARN的计算框架。
hadoop从广义上来说,指的是hadoop生态圈。
zookeeper重点在于它的协调服务