Hadoop生态圈技术
初识Hadoop:
- apache下面的开源产品
- 通常指的是生态圈,包括HDFS,YARN,Hive
- 用于搭建大型数据仓库
- 用于PB级分布式数据存储,处理,分析,统计
- 存储在廉价的机器上,具有成熟的生态圈
文件系统HDFS:
- 将文件切分成指定大小的数据块并以多副本存储在多个机器上
- Hadoop实现了一个分布式文件系统
YARN:
- 负责整个集群资源的管理和调度
- 扩展性、容错性和整个框架的资源调度
MapReduce:
- 海量数据的离线处理
- 扩展性和容错性