hive 結合執行計劃分析 limit 執行原理

在hive查詢中要限制查詢輸出條數，可以用limit 關鍵詞指定，如 select columnname1 from table1 limit 10; 這樣hive將輸出符合查詢條件的10個記錄，從根本上說， hive是hadoop提交作業的客戶端，它使用antlr詞法語法分析工具，對SQL進行分析優化後翻譯成一系列MapReduce作業，向hadoop提交運行作業以得到結果.
看一條簡單的SQL語句：

select deviceid from t_aa_pc_log where pt='2012-07-07-00' limit 1;

這條語句指定分區字段 pt爲2012-07-07-00, 限制結果爲 limit 1. 假設運行這個MR作業需要5個map, 那麼每個map應該輸出一條記錄，從jobtrack 的 jobdetails頁面中的計數器中 Map Input Records 一項應該顯示爲5(即該作業中Map階段總共輸入5條記錄),結果是否如預計的那樣，通過運行改SQL來驗證:

> select deviceid from t_aa_pc_log where pt='2012-07-07-00' limit 1;
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_201205162059_1547550, Tracking URL = http://jt.dc.sh-wgq.sdo.com:50030/jobdetails.jsp?jobid=job_201205162059_1547550
Kill Command = /home/hdfs/hadoop-current/bin/hadoop job -Dmapred.job.tracker=10.133.10.103:50020 -kill job_201205162059_1547550
2012-07-07 16:22:42,570 Stage-1 map = 0%, reduce = 0%
2012-07-07 16:22:48,628 Stage-1 map = 80%, reduce = 0%
2012-07-07 16:22:49,640 Stage-1 map = 100%, reduce = 0%
2012-07-07 16:22:50,654 Stage-1 map = 100%, reduce = 100%
Ended Job = job_201205162059_1547550
OK
0cf49387a23d9cec25da3d76d6988546
Time taken: 13.499 seconds
hive>

正如limit 1限制，輸出一條記錄，再通過 http://jt.dc.sh-wgq.sdo.com:50030/jobdetails.jsp?jobid=job_201205162059_1547550
查看Map Input Records項:

上圖顯示Map Input Records實際上是35，並非之前設想的每個MAP一條，總共5條，那多出來的30條記錄又是怎麼來的? 實際上這個跟hive mapreduce實現有關，先來看看上面這條SQL的執行計劃:

> explain select deviceid from t_aa_pc_log where pt='2012-07-07-00' limit 1;
OK
STAGE DEPENDENCIES:
Stage-1 is a root stage
Stage-0 is a root stage
STAGE PLANS:
Stage: Stage-1
Map Reduce
Alias -> Map Operator Tree:
t_aa_pc_log
TableScan
alias: t_aa_pc_log
Filter Operator
predicate:
expr: (pt = '2012-07-07-00')
type: boolean
Select Operator
expressions:
expr: deviceid
type: string
outputColumnNames: _col0
Limit
File Output Operator
compressed: false
GlobalTableId: 0
table:
input format: org.apache.hadoop.mapred.TextInputFormat
output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
Stage: Stage-0
Fetch Operator
limit: 1
Time taken: 0.418 seconds

改執行計劃顯示，Stage-1 是一個MR程序，且只有map過程，沒有reduce過程,也就是說在Map過程就直接將結果輸出到HDFS文件系統, Stage-0是依賴於Stage-1的文件讀取操作，它不是MR作業，只是一個基於hadoop文件系統客戶端的分佈式文件讀取程序。
重點分析Stage-1過程，一條記錄被讀取後調用hive自定義mapper函數，依次經過
TableScan Operator -> Filter Operator -> Select Operator -> Limit Operator-> File Output Operator, 以上每一個Operator都是hive定義的一個處理過程, 每一個 Operator都定義有:

protected List<Operator<? extends Serializable>> childOperators;
protected List<Operator<? extends Serializable>> parentOperators;

這樣就構成了一個 Operator圖，hive正是基於這些圖關係來處理諸如limit, group by, join等操作. Operator 基類定義一個:

protected boolean done; // 初始化值爲false

這個字段指示某一個層級的Operator是否已經處理完成，每當一條記錄進入特定的Operator操作時，當前Operator會判斷自己的childOperators 的done是否全部爲true, 如果是，表示childOperators已去全部處理完畢，當前這個Operator也把自己的 done設置爲true, 這樣層層返回，直到最外層的Operator, 這個查詢中涉及的部分Operator如下圖:

該hive MR作業中指定的mapper是:

mapred.mapper.class = org.apache.hadoop.hive.ql.exec.ExecMapper

input format是:

hive.input.format org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

部分執行流程：

MapRunner會循環調用CombineHiveRecordReader的doNext方法讀入行記錄，直到doNext方法返回false, doNext方法中有一個重要的邏輯來控制記錄讀取是否結束

@Override
public boolean doNext(K key, V value) throws IOException {
if (ExecMapper.getDone()) {
return false;
}
return recordReader.next(key, value);
}

每讀取一條記錄都會判斷 MapRunner.getDone()是否爲真，如果是則結束Mapper讀取過程, ExecMapper類中定義了一個靜態變量done（靜態非常重要，因爲在hadoop框架下執行時 CombineHiveRecordReader無法拿到 ExecMapper實例), 當 MapRunner讀取一條記錄後就會調用 MapRunner的map函數, ExecMapper中定義了一個MapOperator，MapOperator的 childOperators 列表中持有TableScanOperator實例，依次類推，各Operator遞歸包含.
ExecMapper的map函數被調用時會先判斷 MapOperator的done是否爲true, 如果是，則將自己的靜態變量done設置爲true(這樣 CombineHiveRecordReader在下一次讀取記錄時發現 ExecMapper的done爲true, 結束mapper記錄讀取), 否則執行MapOperator的process方法, 具體邏輯如下:

public void map(Object key, Object value, OutputCollector output,
Reporter reporter) throws IOException {
if (oc == null) {
oc = output;
rp = reporter;
mo.setOutputCollector(oc);
mo.setReporter(rp);
}
// reset the execContext for each new row
execContext.resetRow();
try {
if (mo.getDone()) {
done = true;
} else {
// Since there is no concept of a group, we don't invoke
// startGroup/endGroup for a mapper
mo.process((Writable)value);

接下來再看看各Operator如何判斷自己狀態是否爲執行完成:

int childrenDone = 0;
for (int i = 0; i < childOperatorsArray.length; i++) {
Operator<? extends Serializable> o = childOperatorsArray[i];
if (o.getDone()) {
childrenDone++;
} else {
o.process(row, childOperatorsTag[i]);
}
}
// if all children are done, this operator is also done
if (childrenDone == childOperatorsArray.length) {
setDone(true);
}

每個Operator都判斷自己的子Operator狀態是否全部完成，如果是則把自己的狀態也設置成done=true.
最後再看LimitOperator的判斷邏輯:

@Override
public void processOp(Object row, int tag) throws HiveException {
if (currCount < limit) {
forward(row, inputObjInspectors[tag]);
currCount++;
} else {
setDone(true);
}
}

currCount 是一個記錄處理的計數器，初始值爲0，當該值大於等於limit後，將自己標識成處理完成狀態,即設置done=true.
分析到現在，已經可以非常清晰的解釋最初的疑問了，爲什麼 limit 1， map數爲5的前提下， Map Input Records 是35而不是5
1. 第一條記錄進入LimitOperator done 爲false
2. 第二條記錄進入LimitOperator done 爲true
3. 第三條記錄進入SelectOperator done 設置爲true
4. 第四條記錄進入FilterOperator done設置爲true
5. 第五條記錄進入TableScanOperator done設置爲true
6. 第六條記錄進入MapOperator done設置爲true
7. 第7條記錄進入ExecMapper 靜態變量done設置爲true
8. 讀取第八條記錄時 CombineHiveRecordReader 發現 ExecMapper 的done已經爲true, 結束數據讀取，從而 MapRunner 退出循環，結束mapper過程.
從上面8個步驟看出，每個map會讀取7條記錄， 5個map，正好是35條記錄.
在平時工作中，通過分析 hive 執行計劃可以讓我們清楚的知道MR中的每一個過程，理解HIVE執行過程，進而對SQL優化.

原文：http://yaoyinjie.blog.51cto.com/3189782/923378

hive 結合執行計劃分析 limit 執行原理

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

sql求連續值問題

cs01 CSS Syntax

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

[MASM拾遺]Offset僞指令

h30 HTML Layout Elements

瞭解顯卡

一款基於C#開發的通訊調試工具（支持Modbus RTU、MQTT調試）

Linux/Golang/glibC系統調用

ubuntu增加hosts

vim7.0配置python自動補全

資料集合

可讀的JVM GC時間戳

JVM調優小結

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

hive 結合執行計劃 分析 limit 執行原理

hive 結合執行計劃分析 limit 執行原理