一、Hadoop简介
Hadoop主要包括下面四个模块
-
Hadoop Common:一些公共类
-
Hadoop Distributed File System:分布式文件存储系统
-
Hadoop YARN:Job与集群资源的管理
-
Hadoop MapReduce:基于YARN的系统,并行处理大数据集合;
官网截图如下:
-
hive:将mr程序封装成sql使用,学习成本低;后续用于构建data warehouse;
-
habse:分布式数据库
-
spark:在线计算,效率比mr高,但IO消耗过多
-
zookeeper:开源界中分布式、高可用无其他对手