MapRdeduce框架原理

MapReduce數據流

 

數據切片與MapTask並行度機制決定

 

MapTask的並行度決定Map階段的任務處理併發度,進而影響到整個Job的處理速度。

 

MapTask並行度決定機制

數據塊:BlockHDFS物理上把數據分成一塊一塊。

數據切片:數據切片只是在邏輯上對輸入進行分片,並不會在磁盤上將其切分成片進行存儲。

 

Job提交流程源碼解析

 

MapReduce工作流程

 

 

Shuffle機制

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章