1.MapReduce概述
2.MapReduce特點
3.MapReduce架構
4.MapReduce容錯性
5.MapReduce編程模型
6.官方WordCount思路剖析
7.WordCount案例開放
8.WordCount重構
1.MapReduce概述
MapReduce 源自於Google的MapReduce論文。
發表於2004年12月
Hadoop MapReduce是Google MapReduce的克隆版。
前提:確保Hadoop 已經安裝了。
2.MapReduce特點
特點:
- 適用於海量數據的離線處理
- 易於編程
- 良好的擴展性
- 高容錯性
不適合的場景
- 實時計算
- 流式計算
- DAG計算
3.MapReduce架構
4.MapReduce容錯性
1.MRAppMaster容錯
一旦運行失敗,由YARN的RM負責重新啓動,默認啓動次數2次
2.Map/Reduce Task容錯
Task會週期性向MRAppMaster發送心跳,彙報運行狀況
Task掛了,NRAppMaster會爲task重新申請資源,然後重新執行(NM,換一個NM),次數限制,默認4次。
5.MapReduce編程模型
MapReduce編程模型
- 輸入:一系列的鍵值對<k1,v1>
- map:map<k1,v1>轉換成<k2,v2>
- reduce:<k2,v2>轉換成<k3,v3>
- 輸出:一系列的鍵值對<k3,v3>