hadoop三大核心組件:
1、HDFS:分佈式存儲系統(實時key-value查詢hbase、HiveQL離線統計分析hive都是基於此開發的技術)
2、MapReduce:分佈式計算系統
3、YARN: hadoop 的資源調度系統
1、在HDFS上存儲文件的時候,文件會按照配置的大小進行分塊,每個分塊會按照設置的副本的數目,在hdfs上面存儲。HDFS不支持文件的修改,因爲是分塊儲存,且有多個副本,修改的代價太高,直接刪除重建吧。
2、MapReduce採用“分而治之”策略,map(映射)+ reduce (歸約),輸入數據自動分割爲M個數據片段的集合,這些輸入的數據片段能夠在不同的機器上並行map處理,使用分區函數將map調用產生的中間key值分成R個不同分區,這些中間數據在多臺機器上調用Reduce處理。最終輸出寫入 HDFS。