spark數據傾斜

原創

岁月的深沉

2020-07-03 09:18

目錄

什麼是數據傾斜

主要是由於不同的key對應的數據量不同導致的不同task所處理的數據量不同，導致少數task被分配了絕大多數的數據，因此這些少數的task運行緩慢，甚至直接OOM

主要表現：

Spark作業的大部分task都執行迅速，只有有限的幾個task執行的非常慢，此時可能出現了數據傾斜，作業可以運行，但是運行得非常慢；
Spark作業的大部分task都執行迅速，但是有的t

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

最新文章

最新評論文章