HIVE優化淺談
作者:鄧力,entobit技術總監,八年大數據從業經歷,由一代HADOOP入坑,深耕雲計算應用領域,由從事亞馬遜EMR和阿里雲EMR應用開發逐步轉入大數據架構領域,對大數據生態及框架應用有深刻理解。
引言
隨着商務/運營同學執行的HQL越來越多,整體HIVE執行效率變低,本文從HIVE切入,分析HQL面臨的問題和待優化部分,結合其他大數據框架來解決實際問題。以下內容沒有針對業務代碼提供優化建議.
常見的HQL
select型
設置hive.fetch.task.conversion=none會以集羣模式運行,無論是否有limit。在數據量小時建議使用hive.fetch.task.conversion=more,此時select配合limit以單機執行獲取樣本數據,執行更快
常見的select配合order by/group