hadoop-shuffle Wordcount詳解

原創

小糖宝

2019-03-19 14:03

轉載地址： https://blog.csdn.net/Peter_Changyb/article/details/82682422

wordcount爲例詳細闡述shuffle的實現過程

1. 對HDFS輸入的文件進行切割爲KV形式

2.在mapper方法中執行，分割單詞爲KV形式。

3.shuffle在Map端的三個操作：partition（多節點的相同K合併），sort（鍵值對哈希碼排序)，combine(單節點上相同K合併)

4.shuffle在Reduce端的兩個個操作：拉取partition,merge,sort


1. 拉取partition
 
hadoop決定有多少個reducer的時候會規定有多少個partition，每一個reducer拉取自己要處理的那個分組的全部成員。例如，某臺節點要處理所有以a開頭的鍵值對，它就會將所有mapper中的以a開頭的那一組全部拉取過來。
 
2. merge
 
在每一個reducer上，將具有相同鍵的鍵值對生成另外一個新的鍵值對，鍵是以前的鍵，鍵值是一個以前鍵值的集合。
 
3. sort
 
在每一臺reducer節點上，將新生成的鍵值對進行排序，根據 哈希碼值。

5. Reduce操作

6. 寫出到HDFS:在每一臺reducer節點上將文件寫入，實際上是寫成一個一個的文件塊，但對外的表現形式是一整個大的結果文件。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

hadoop-shuffle Wordcount詳解

容器中nginx無法使用同一個網絡下的容器域名

Python: SunMoonTimeCalculator

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

nodejs學習07——API

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

idea快速構建sbt項目，挑戰全網最全最細（親測，1分鐘內可成功構建sbt）

一文徹底搞懂spark的shuffle過程（shuffle write）

算法小白的第一次嘗試---判斷點是否在不規則區域範圍內（手撕）

算法小白的第一次嘗試---PCA（主成分分析）降維【適合各種緯度數據】

spark讀取csv中文亂碼

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結