hadoop 將MR的輸入數據劃分成等長的小數據塊,稱爲輸入分片,hadoop爲每個分片構建一個map任務。擁有許多分片,意味着處理每個分片所需要的時間少於處理整個輸入數據所花的時間。因此,如果我們並行處理每個分片,切每個分片數據比較小,那麼整個處理過程將獲得更好的負載均衡,因爲一臺較快的計算機能夠處理的數據分片比一臺較慢的計算機更多,且成一定的比例。即使使用相同的機器,處理失敗的作業或其他同時運行的作業也能夠實現負載均衡,並且如果分片被切分得更細,負載均衡的質量會更好。
另一方面,如果分片切分的太小,那麼管理分片的總時間和構建map任務的總時間將決定着作業的整個執行時間。