一、Hadoop簡介
Hadoop主要包括下面四個模塊
-
Hadoop Common:一些公共類
-
Hadoop Distributed File System:分佈式文件存儲系統
-
Hadoop YARN:Job與集羣資源的管理
-
Hadoop MapReduce:基於YARN的系統,並行處理大數據集合;
官網截圖如下:
-
hive:將mr程序封裝成sql使用,學習成本低;後續用於構建data warehouse;
-
habse:分佈式數據庫
-
spark:在線計算,效率比mr高,但IO消耗過多
-
zookeeper:開源界中分佈式、高可用無其他對手