Hive SQL解析/執行計劃生成流程分析

Hive有三種用戶接口：

cli (Command line interface)	bin/hive或bin/hive –service cli	命令行方式（默認）
hive-server/hive-server2	bin/hive –service hiveserver 或bin/hive –service hiveserver2	通過JDBC/ODBC和Thrift訪問（Impala通過這種方式借用hive-metastore）
hwi (Hive web interface)	bin/hive –service hwi	通過瀏覽器訪問

在hive shell中輸入“show tables;”實際執行的是：

1	`bin/hadoop` `jar hive/lib/hive-cli-0.9.0.jar org.apache.hadoop.hive.cli.CliDriver -e` `'SHOW TABLES;'`

CLI入口函數：cli.CliDriver.main()

讀入參數->建立SessionState並導入配置->處理輸入文件中指令CliDriver.processFile()；或交互型指令CliDriver.processLine()->解析輸入CliDriver.processCmd()

(1) 如果是quit或者exit，退出

(2) 以source開頭的，讀取外部文件並執行文件中的HiveQL

(3) ！開頭的命令，執行操作系統命令（如!ls，列出當前目錄的文件信息）

(4) list，列出jar/file/archive

(5) 其他命令，則生成調用相應的CommandProcessor處理，進入CliDriver.processLocalCmd()

下面看看CliDriver.processLocalCmd()這個函數：

set/dfs/add/delete指令交給指定的CommandProcessor處理，其餘的交給org.apache.hadoop.hive.ql.Driver.run()處理

org.apache.hadoop.hive.ql.Driver類是查詢的起點，run()方法會先後調用compile()和execute()兩個函數來完成查詢，所以一個command的查詢分爲compile和execute兩個階段。

Compile

(1)利用antlr生成的HiveLexer.java和HiveParser.java類，將HiveQL轉換成抽象語法樹（AST）。

首先使用antlr工具將srcqlsrcjavaorgapachehadoophiveqlparsehive.g編譯成以下幾個文件：HiveParser.java, Hive.tokens, Hive__.g, HiveLexer.java

HiveLexer.java和HiveParser.java分別是詞法和語法分析類文件，Hive__.g是HiveLexer.java對應的詞法分析規範，Hive.tokens定義了詞法分析後所有的token。

然後沿着“Driver.compile()->ParseDriver.parse(command, ctx)->HiveParserX.statement()->antlr中的API”這個調用關係把輸入的HiveQL轉化成 ASTNode類型的語法樹。HiveParserX是由antlr生成的HiveParser類的子類。

(2)利用對應的SemanticAnalyzer類，將AST樹轉換成Map-reduce task。主要分爲三個步驟：

a) AST -> operator DAG

b) optimize operator DAG

c) oprator DAG -> Map-reduce task

首先接着上一步生成的語法樹ASTNode， SemanticAnalyzerFactory會根據ASTNode的token類型生成不同的 SemanticAnalyzer (所有這些SemanticAnalyzer都繼承自BaseSemanticAnalyzer)

1) ExplainSemanticAnalyzer

2) LoadSemanticAnalyzer

3) ExportSemanticAnalyzer

4) DDLSemanticAnalyzer

5) FunctionSemanticAnalyzer

6) SemanticAnalyzer

然後調用BaseSemanticAnalyzer.analyze()->BaseSemanticAnalyzer. analyzeInternal()。

下面以最常見的select * from table類型的查詢爲例，進入的子類是SemanticAnalyzer. analyzeInternal()，這個函數的邏輯如下：

1) doPhase1()：將sql語句中涉及到的各種信息存儲起來，存到QB中去，留着後面用。

2) getMetaData()：獲取元數據信息，主要是sql中涉及到的表和元數據的關聯

3) genPlan()：生成operator tree/DAG

4) optimize：優化，對operator tree/DAG 進行一些優化操作，例如列剪枝等（目前只能做rule-based optimize，不能做cost-based optimize）

5) genMapRedTasks()：將operator tree/DAG 通過一定的規則生成若干相互依賴的MR任務

Execute

將Compile階段生成的task信息序列化到plan.xml，然後啓動map-reduce，在configure時反序列化plan.xml

實例分析：

在hive中有這樣一張表：

uid	fruit_name	count
a	apple	5
a	orange	3
a	apple	2
b	banana	1

執行如下的查詢：

1	`SELECT` `uid,` `SUM(count)` `FROM` `logs` `GROUP` `BY` `uid`

通過explain命令可以查看執行計劃：

1	`EXPLAIN` `SELECT` `uid,` `SUM(count)` `FROM` `logs` `GROUP` `BY` `uid;`

依照hive.g的語法規則，生成AST如下:

ABSTRACT SYNTAX
TREE:

(

TOK_QUERY

(TOK_FROM
(TOK_TABREF (TOK_TABNAME logs)))

(

TOK_INSERT

(TOK_DESTINATION
(TOK_DIR TOK_TMP_FILE))

(

TOK_SELECT

(TOK_SELEXPR
(TOK_TABLE_OR_COL uid))

(TOK_SELEXPR
(TOK_FUNCTION

sum (TOK_TABLE_OR_COL count)))

)

(TOK_GROUPBY
(TOK_TABLE_OR_COL uid))

)

生成的執行計劃operator tree/DAG如下：

STAGE DEPENDENCIES:

Stage-1 is

a
root stage

Stage-0 is

a
root stage

STAGE PLANS:

Stage:
Stage-1

Map
Reduce

Alias
-&amp;amp;gt; Map Operator Tree:

logs

TableScan
// 掃描表

alias:
logs

Select

Operator
//選擇字段

expressions:

expr:
uid

type:
string

expr: count

type: int

outputColumnNames:
uid,

count

Group By

Operator
//在map端先做一次聚合，減少shuffle數據量

aggregations:

expr: sum(count

)
//聚合函數

bucketGroup: false

keys:

expr:
uid

type:
string

mode:
hash

outputColumnNames:
_col0, _col1

Reduce Output

Operator
//輸出

key，value給reduce

key expressions:

expr:
_col0

type:
string

sort order

:
+

Map-reduce
partition columns:

expr:
_col0

type:
string

tag:
-1

value
expressions:

expr:
_col1

type: bigint

Reduce
Operator Tree:

Group By Operator

aggregations:

expr: sum

(VALUE._col0)
//聚合

bucketGroup: false

keys:

expr: KEY._col0

type:
string

mode:
mergepartial

outputColumnNames:
_col0, _col1

Select

Operator
//選擇字段

expressions:

expr:
_col0

type:
string

expr:
_col1

type: bigint

outputColumnNames:
_col0, _col1

File Output

Operator
//輸出到文件

compressed: false

GlobalTableId:
0

table:

input
format: org.apache.hadoop.mapred.TextInputFormat

output

format:
org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat

Stage:
Stage-0

Fetch Operator

limit:
-1

Hive優化策略：

1. 去除查詢中不需要的column

2. Where條件判斷等在TableScan階段就進行過濾

3. 利用Partition信息，只讀取符合條件的Partition

4. Map端join，以大表作驅動，小表載入所有mapper內存中

5. 調整Join順序，確保以大表作爲驅動表

6. 對於數據分佈不均衡的表Group by時，爲避免數據集中到少數的reducer上，分成兩個map-reduce階段。第一個階段先用Distinct列進行shuffle，然後在 reduce端部分聚合，減小數據規模，第二個map-reduce階段再按group-by列聚合。

7. 在map端用hash進行部分聚合，減小reduce端數據處理規模。

Hive SQL解析/執行計劃生成流程分析

Hive SQL解析/執行計劃生成流程分析

繼承中成員變量初始化

QuickSort/快速排序/快排

heapsort/minheap/maxheap/堆排序/最大堆/最小堆

內核內存分配器（Kernel Memory Allocator, KMA）

進程間通信（IPC）:共享內存

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結