1、在沒有groupby reduceby的情況下,可以將原始數據repartition()一下,增加task的數量。
2、如果存在groupby reduceby的情況,如果只是統計key的數量,可以在key前面加上隨機數,將key再細化,可以明顯提高處理速度。
3、如果存在groupby的情況,要統計某個key的所有數據,可以使用hive先進行預處理,下下策做數據過濾。其他暫時好像還沒好的方法。
1、在沒有groupby reduceby的情況下,可以將原始數據repartition()一下,增加task的數量。
2、如果存在groupby reduceby的情況,如果只是統計key的數量,可以在key前面加上隨機數,將key再細化,可以明顯提高處理速度。
3、如果存在groupby的情況,要統計某個key的所有數據,可以使用hive先進行預處理,下下策做數據過濾。其他暫時好像還沒好的方法。
https://www.bilibili.com/video/BV1k8411575T/?vd_source=d68ed178f151e80fea1e02efd205802c