shuffle的過程分析

多個map任務的輸出,按照不同的分區,通過網絡copy到不同的reduce節點上。

 

 

 Map端:

  1、在map端首先接觸的是InputSplit,在InputSplit中含有DataNode中的數據,每一個InputSplit都會分配一個Mapper任務,Mapper任務結束後產生<K2,V2>的輸出,這些輸出先存放在緩存中,每個map有一個環形內存緩衝區,用於存儲任務的輸出。默認大小100MB(io.sort.mb屬性),一旦達到閥值0.8(io.sort.spil l.percent),一個後臺線程就把內容寫到(spill)Linux本地磁盤中的指定目錄(mapred.local.dir)下的新建的一個溢出寫文件。(注意:map過程的輸出是寫入本地磁盤而不是HDFS,但是一開始數據並不是直接寫入磁盤而是緩衝在內存中,緩存的好處就是減少磁盤I/O的開銷,提高合併和排序的速度。又因爲默認的內存緩衝大小是100M(當然這個是可以配置的),所以在編寫map函數的時候要儘量減少內存的使用,爲shuffle過程預留更多的內存,因爲該過程是最耗時的過程。)

  2、寫磁盤前,要進行partition、sort和combine等操作。通過分區,將不同類型的數據分開處理,之後對不同分區的數據進行排序,如果有Combiner,還要對排序後的數據進行combine。等最後記錄寫完,將全部溢出文件合併爲一個分區且排序的文件。(注意:在寫磁盤的時候採用壓縮的方式將map的輸出結果進行壓縮是一個減少網絡開銷很有效的方法!)

  3、最後將磁盤中的數據送到Reduce中,從圖中可以看出Map輸出有三個分區,有一個分區數據被送到圖示的Reduce任務中,剩下的兩個分區被送到其他Reducer任務中。而圖示的Reducer任務的其他的三個輸入則來自其他節點的Map輸出。

 

 Reduce端:

  1、Copy階段:Reducer通過Http方式得到輸出文件的分區。

 

  reduce端可能從n個map的結果中獲取數據,而這些map的執行速度不盡相同,當其中一個map運行結束時,reduce就會從JobTracker中獲取該信息。map運行結束後TaskTracker會得到消息,進而將消息彙報給  JobTracker,reduce定時從JobTracker獲取該信息,reduce端默認有5個數據複製線程從map端複製數據。

 

  2、Merge階段:如果形成多個磁盤文件會進行合併

 

  從map端複製來的數據首先寫到reduce端的緩存中,同樣緩存佔用到達一定閾值後會將數據寫到磁盤中,同樣會進行partition、combine、排序等過程。如果形成了多個磁盤文件還會進行合併,最後一次合併的結果作爲reduce的輸入而不是寫入到磁盤中。

 

  3、Reducer的參數:最後將合併後的結果作爲輸入傳入Reduce任務中。(注意:當Reducer的輸入文件確定後,整個Shuffle操作才最終結束。之後就是Reducer的執行了,最後Reducer會把結果存到HDFS上。)


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章