1.優化時,把hive sql當做map reduce程序來讀,會有很好的效果。
2.對job數比較多的作業運行效率比較低,即使有幾百行的表,如果多次關聯,多次彙總,作業執行時間還是比較長的。
3.對count(distinct),效率較低。
優化可以從幾個方面着手:
1.好的模型設計事半功倍
2.解決數據傾斜問題
3.減少job數量
4.設置合理的map reduce的task數,能有效提升性能(10w級的計算,用一個reduce足夠)
5.不適用count(distinct)
6.對小文件進行合併,是行之有效的提高效率的方法,
7.優化時把握整體,單個作業最優不如整體最優