EMR Spark-SQL性能極致優化揭祕 Native Codegen Framework

作者:周克勇,花名一錘,阿里巴巴計算平臺事業部EMR團隊技術專家,大數據領域技術愛好者,對Spark有濃厚興趣和一定的瞭解,目前主要專注於EMR產品中開源計算引擎的優化工作。


背景和動機

SparkSQL多年來的性能優化集中在Optimizer和Runtime兩個領域。前者的目的是爲了獲得最優的執行計劃,後者的目的是針對既定的計劃儘可能執行的更快。

相比於Runtime,Optimizer是更加通用的、跟實現無關的優化。無論是Java世界(Spark, Hive)還是C++世界(Impala, MaxCompute),無論是Batch-Based(Spark, Hive)還是MPP-Based(Impala, Presto),甚至無論是大數據領域還是傳統數據庫領域亦或HTAP領域(HyPer, ADB),在Optimizer層面考慮的都




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章