Hadoop生態圈技術
初識Hadoop:
- apache下面的開源產品
- 通常指的是生態圈,包括HDFS,YARN,Hive
- 用於搭建大型數據倉庫
- 用於PB級分佈式數據存儲,處理,分析,統計
- 存儲在廉價的機器上,具有成熟的生態圈
文件系統HDFS:
- 將文件切分成指定大小的數據塊並以多副本存儲在多個機器上
- Hadoop實現了一個分佈式文件系統
YARN:
- 負責整個集羣資源的管理和調度
- 擴展性、容錯性和整個框架的資源調度
MapReduce:
- 海量數據的離線處理
- 擴展性和容錯性