spark數據傾斜

什麼是數據傾斜

主要是由於不同的key對應的數據量不同導致的不同task所處理的數據量不同,導致少數task被分配了絕大多數的數據,因此這些少數的task運行緩慢,甚至直接OOM

主要表現:

  1. Spark作業的大部分task都執行迅速,只有有限的幾個task執行的非常慢,此時可能出現了數據傾斜,作業可以運行,但是運行得非常慢;
  2. Spark作業的大部分task都執行迅速,但是有的t
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章