hadoop(HDFS、MapReduce)

hadoop三大核心組件:

1、HDFS:分佈式存儲系統(實時key-value查詢hbase、HiveQL離線統計分析hive都是基於此開發的技術)

2、MapReduce:分佈式計算系統

3、YARN: hadoop 的資源調度系統

 

1、在HDFS上存儲文件的時候,文件會按照配置的大小進行分塊,每個分塊會按照設置的副本的數目,在hdfs上面存儲。HDFS不支持文件的修改,因爲是分塊儲存,且有多個副本,修改的代價太高,直接刪除重建吧。

 

2、MapReduce採用“分而治之”策略,map(映射)+ reduce (歸約),輸入數據自動分割爲M個數據片段的集合,這些輸入的數據片段能夠在不同的機器上並行map處理,使用分區函數將map調用產生的中間key值分成R個不同分區,這些中間數據在多臺機器上調用Reduce處理。最終輸出寫入 HDFS。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章