大數據學習3——分佈式計算框架MapReduce

目錄
1.MapReduce概述
2.MapReduce特點
3.MapReduce架構
4.MapReduce容錯性
5.MapReduce編程模型
6.官方WordCount思路剖析
7.WordCount案例開放

8.WordCount重構



1.MapReduce概述

MapReduce 源自於Google的MapReduce論文。
發表於2004年12月


Hadoop MapReduce是Google MapReduce的克隆版。
前提:確保Hadoop 已經安裝了。

2.MapReduce特點

特點:

  • 適用於海量數據的離線處理
  • 易於編程
  • 良好的擴展性
  • 高容錯性

不適合的場景

  • 實時計算
  • 流式計算
  • DAG計算

3.MapReduce架構





4.MapReduce容錯性

1.MRAppMaster容錯
   一旦運行失敗,由YARN的RM負責重新啓動,默認啓動次數2次
2.Map/Reduce Task容錯
   Task會週期性向MRAppMaster發送心跳,彙報運行狀況
   Task掛了,NRAppMaster會爲task重新申請資源,然後重新執行(NM,換一個NM),次數限制,默認4次。

5.MapReduce編程模型

MapReduce編程模型

  • 輸入:一系列的鍵值對<k1,v1>
  • map:map<k1,v1>轉換成<k2,v2>
  • reduce:<k2,v2>轉換成<k3,v3>
  • 輸出:一系列的鍵值對<k3,v3>


6.官方WordCount思路剖析


7.WordCount案例開放


8.WordCount重構


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章