表相關
存儲格式:
避免使用text,JSON,有可能的haul也應避免sequence文件;
理想的格式是RCFile (Row Columnar File)
壓縮:
block compression 比 value compression更高效,最終結果及中間結果都應壓縮,
set hive.exec.compress.output=true;set hive.exec.compress.intermediate=true;
數據本地化存儲格式:
最好使用HDFS
大表進行分區:
數據是按時間序列積累的,或者每次查詢只需查詢部分數據不必對所有數據進行查詢時,可對大表記性分區,如
year/month/day或者continent/country/region/city,如此進行查詢時會跳過不相關數據。
查詢:
避免使用order by 排序:
將排序操作放在reduce操作中
參考:Best Practices for Hive Efficiency