spark數據傾斜處理

1、在沒有groupby reduceby的情況下,可以將原始數據repartition()一下,增加task的數量。

2、如果存在groupby reduceby的情況,如果只是統計key的數量,可以在key前面加上隨機數,將key再細化,可以明顯提高處理速度。

3、如果存在groupby的情況,要統計某個key的所有數據,可以使用hive先進行預處理,下下策做數據過濾。其他暫時好像還沒好的方法。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章