Hive優化的十大方法

Hive用的好，才能從數據中挖掘出更多的信息來。用過hive的朋友，我想或多或少都有類似的經歷：一天下來，沒跑幾次hive，就到下班時間了。Hive在極大數據或者數據不平衡等情況下，表現往往一般，因此也出現了presto、spark-sql等替代品。這裏重點講解hive的優化方式，例如

優化分組：set hive.auto.convert.join=true;

優化表關聯內存運行：/*+MAPJOIN(t1,t3,t4)*/

一. 表連接優化

將大表放後頭
Hive假定查詢中最後的一個表是大表。它會將其它表緩存起來，然後掃描最後那個表。因此通常需要將小表放前面，或者標記哪張表是大表：/streamtable(table_name) /
使用相同的連接鍵
當對3個或者更多個表進行join連接時，如果每個on子句都使用相同的連接鍵的話，那麼只會產生一個MapReduce job。
儘量儘早地過濾數據
減少每個階段的數據量，對於分區表要加分區，同時只選擇需要使用到的字段。
儘量原子化操作
儘量避免一個SQL包含複雜邏輯，可以使用中間表來完成複雜的邏輯

二. 用insert into替換union all
如果union all的部分個數大於2，或者每個union部分數據量大，應該拆成多個insert into 語句，實際測試過程中，執行時間能提升50%。示例參考如下：

insert overwite table tablename partition (dt= ....) 　

select ..... from ( select ... from A 
union all 　
select ... from B 　union all select ... from C ) R 　

where ...;

可以改寫爲：

insert into table tablename partition (dt= ....) select .... from A WHERE ...; 
insert into table tablename partition (dt= ....) select .... from B 　WHERE ...; 
insert into table tablename partition (dt= ....) select .... from C WHERE ...;

三. order by & sort by
order by : 對查詢結果進行全局排序消耗時間長,需要set hive.mapred.mode=nostrict
sort by : 局部排序，並非全局有序，提高效率。

四. transform+python
一種嵌入在hive取數流程中的自定義函數，通過transform語句可以把在hive中不方便實現的功能在python中實現，然後寫入hive表中。示例語法如下：

select transform({column names1})

using '**.py'

as {column names2}

from {table name}

如果除python腳本外還有其它依賴資源，可以使用ADD ARVHIVE。

五. limit 語句快速出結果
一般情況下，Limit語句還是需要執行整個查詢語句，然後再返回部分結果。有一個配置屬性可以開啓，避免這種情況—對數據源進行抽樣

hive.limit.optimize.enable=true --- 開啓對數據源進行採樣的功能
hive.limit.row.max.size --- 設置最小的採樣容量
hive.limit.optimize.limit.file --- 設置最大的採樣樣本數

缺點：有可能部分數據永遠不會被處理到

六. 本地模式
對於小數據集，爲查詢觸發執行任務消耗的時間>實際執行job的時間，因此可以通過本地模式，在單臺機器上（或某些時候在單個進程上）處理所有的任務。

set oldjobtracker=${hiveconf:mapred.job.tracker}; 
set mapred.job.tracker=local; 　
set marped.tmp.dir=/home/edward/tmp;
set mapred.job.tracker=${oldjobtracker};
sql 語句

可以通過設置屬性hive.exec.mode.local.auto的值爲true，來讓Hive在適當的時候自動啓動這個優化，也可以將這個配置寫在$HOME/.hiverc文件中。
當一個job滿足如下條件才能真正使用本地模式：

job的輸入數據大小必須小於參數：hive.exec.mode.local.auto.inputbytes.max(默認128MB)
job的map數必須小於參數：hive.exec.mode.local.auto.tasks.max(默認4)
job的reduce數必須爲0或者1
可用參數hive.mapred.local.mem(默認0)控制child的jvm使用的最大內存數。

七. 並行執行
Hive會將一個查詢轉化爲一個或多個階段，包括：MapReduce階段、抽樣階段、合併階段、limit階段等。默認情況下，一次只執行一個階段。不過，如果某些階段不是互相依賴，是可以並行執行的。

set hive.exec.parallel=true,可以開啓併發執行。
set hive.exec.parallel.thread.number=16; //同一個sql允許最大並行度，默認爲8。

會比較耗系統資源。

八. 調整mapper和reducer的個數

Map階段優化
map個數的主要的決定因素有： input的文件總個數，input的文件大小，集羣設置的文件塊大小（默認128M，不可自定義）。參考舉例如下：

假設input目錄下有1個文件a,大小爲780M,那麼hadoop會將該文件a分隔成7個塊（6個128m的塊和1個12m的塊），從而產生7個map數
假設input目錄下有3個文件a,b,c,大小分別爲10m，20m，130m，那麼hadoop會分隔成4個塊（10m,20m,128m,2m），從而產生4個map數。
即如果文件大於塊大小(128m),那麼會拆分，如果小於塊大小，則把該文件當成一個塊。
map執行時間：map任務啓動和初始化的時間+邏輯處理的時間。

減少map數
若有大量小文件（小於128M），會產生多個map，處理方法是：

set mapred.max.split.size=100000000; 
set mapred.min.split.size.per.node=100000000; 
set mapred.min.split.size.per.rack=100000000;

前面三個參數確定合併文件塊的大小，大於文件塊大小128m的，按照128m來分隔，小於128m,大於100m的，按照100m來分隔，把那些小於100m的（包括小文件和分隔大文件剩下的）進行合併。

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; – 執行前進行小文件合併。

增加map數
當input的文件都很大，任務邏輯複雜，map執行非常慢的時候，可以考慮增加Map數，來使得每個map處理的數據量減少，從而提高任務的執行效率。
set mapred.reduce.tasks=?

Reduce階段優化
調整方式：

set mapred.reduce.tasks=?
set hive.exec.reducers.bytes.per.reducer = ?

一般根據輸入文件的總大小,用它的estimation函數來自動計算reduce的個數：reduce個數 = InputFileSize / bytes per reducer

九. 嚴格模式

set hive.marped.mode=strict --防止用戶執行那些可能意想不到的不好的影響的查詢

(1)分區表，必須選定分區範圍
(2)對於使用order by的查詢，要求必須使用limit語句。因爲order by爲了執行排序過程會將所有的結果數據分發到同一個reducer中進行處理
(3)限制笛卡爾積查詢：兩張表join時必須有on語句

十. 數據傾斜
表現：
任務進度長時間維持在99%（或100%），查看任務監控頁面，發現只有少量（1個或幾個）reduce子任務未完成。因爲其處理的數據量和其他reduce差異過大。單一reduce的記錄數與平均記錄數差異過大，通常可能達到3倍甚至更多。最長時長遠大於平均時長。

原因：

（1）key分佈不均勻
（2）業務數據本身的特性
（3）建表時考慮不周
（4）某些SQL語句本身就有數據傾斜

解決方案：參數調節

set hive.map.aggr=true

聲明：本號所有文章除特殊註明，都爲原創，公衆號讀者擁有優先閱讀權，未經作者本人允許不得轉載，否則追究侵權責任。

關注我的公衆號，後臺回覆【JAVAPDF】獲取200頁面試題！
5萬人關注的大數據成神之路，不來了解一下嗎？
5萬人關注的大數據成神之路，真的不來了解一下嗎？
5萬人關注的大數據成神之路，確定真的不來了解一下嗎？

Hive優化的十大方法

歡迎您關注《大數據成神之路》

工程師的思維轉變

中國優秀的架構師是不是出現了嚴重斷層？

所以說讀者們纔是最優秀的 | 某讀者喜提offer後的分享

2021年，開發者的落日

【大數據嗶嗶集20210123】別問，問就是Kafka最可靠

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結