MapReduce數據流
數據切片與MapTask並行度機制決定
MapTask的並行度決定Map階段的任務處理併發度,進而影響到整個Job的處理速度。
MapTask並行度決定機制
數據塊:Block是HDFS物理上把數據分成一塊一塊。
數據切片:數據切片只是在邏輯上對輸入進行分片,並不會在磁盤上將其切分成片進行存儲。
Job提交流程源碼解析
MapReduce工作流程
MapTask的並行度決定Map階段的任務處理併發度,進而影響到整個Job的處理速度。
數據塊:Block是HDFS物理上把數據分成一塊一塊。
數據切片:數據切片只是在邏輯上對輸入進行分片,並不會在磁盤上將其切分成片進行存儲。