hadoop的使用記錄,
我在測試一部分數據,測試過程中,想ls出來看看,這樣難免會修改job的outputformat,我在測一個工作任務,結果呢,我改了reducer的輸出格式,也改了job的設置,可還是出錯。開始不明白啊,我這個大粗人啊。
今天看job的設置,突然看到了,裏面有combine的設置,唉,一想combine是在reduce前,同時其輸出也是reduce的輸入,我明白了。job裏設置的reducer類也是combine,這就是爲什麼老出錯了。
所以說,如果你想讓你的reducer類也作爲combine,你要保證你的combine輸出和你的reducer輸入是一樣啊,也就是reducer的輸入和輸出要一致才行啊。
自己很少使用combine,唉,也沒想過那麼多。