提升hive效率的最佳實踐

表相關

存儲格式:

避免使用text,JSON,有可能的haul也應避免sequence文件;

理想的格式是RCFile (Row Columnar File)

壓縮:

block compression 比 value compression更高效,最終結果及中間結果都應壓縮,

set hive.exec.compress.output=true;set hive.exec.compress.intermediate=true;

數據本地化存儲格式:

最好使用HDFS

大表進行分區:

數據是按時間序列積累的,或者每次查詢只需查詢部分數據不必對所有數據進行查詢時,可對大表記性分區,如

year/month/day或者continent/country/region/city,如此進行查詢時會跳過不相關數據。


查詢:

避免使用order by 排序:

將排序操作放在reduce操作中

 

參考:Best Practices for Hive Efficiency

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章