hive調優

1.優化時,把hive sql當做map reduce程序來讀,會有很好的效果。

2.job數比較多的作業運行效率比較低,即使有幾百行的表,如果多次關聯,多次彙總,作業執行時間還是比較長的。

3.countdistinct),效率較低。


優化可以從幾個方面着手:

1.好的模型設計事半功倍

2.解決數據傾斜問題

3.減少job數量

4.設置合理的map reducetask數,能有效提升性能(10w級的計算,用一個reduce足夠)

5.不適用count(distinct)

6.對小文件進行合併,是行之有效的提高效率的方法,

7.優化時把握整體,單個作業最優不如整體最優


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章