spark(五):catalyst以及

spark catalyst:http://www.jasongj.com/spark/rbo/ (這篇文章介紹的非常詳細)
注意點:謂詞下推並不是所有時候都生效spark(五):catalyst以及
這裏的意思是filter的字段必須是確定性的(deterministic),也就是說如果對字段加了lower等內置函數,則此字段就變成非確定性的了,此時謂詞下推就不會生效。

spark數據傾斜

  1. 一般情況,加大shuffle時的partiton個數(spark.sql.shuffle.partitions)
  2. 對於join的情況,如果join的一方足夠小,可被加載進Driver並通過Broadcast方法廣播到各個Executor中(spark.sql.autoBroadcastJoinThreshold)。
  3. 隨機前綴
  4. http://www.jasongj.com/spark/skew/
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章