Hive底層原理：explain執行計劃詳解

進入主頁，點擊右上角“設爲星標”

比別人更快接收好文章

不懂hive中的explain，說明hive還沒入門，學會explain，能夠給我們工作中使用hive帶來極大的便利！

理論

本節將介紹 explain 的用法及參數介紹

HIVE提供了EXPLAIN命令來展示一個查詢的執行計劃,這個執行計劃對於我們瞭解底層原理，hive 調優，排查數據傾斜等很有幫助

使用語法如下：

EXPLAIN [EXTENDED|CBO|AST|DEPENDENCY|AUTHORIZATION|LOCKS|VECTORIZATION|ANALYZE] query

explain 後面可以跟以下可選參數，注意：這幾個可選參數不是 hive 每個版本都支持的

EXTENDED：加上 extended 可以輸出有關計劃的額外信息。這通常是物理信息，例如文件名。這些額外信息對我們用處不大
CBO：輸出由Calcite優化器生成的計劃。CBO 從 hive 4.0.0 版本開始支持
AST：輸出查詢的抽象語法樹。AST 在hive 2.1.0 版本刪除了，存在bug，轉儲AST可能會導致OOM錯誤，將在4.0.0版本修復
DEPENDENCY：dependency在EXPLAIN語句中使用會產生有關計劃中輸入的額外信息。它顯示了輸入的各種屬性
AUTHORIZATION：顯示所有的實體需要被授權執行（如果存在）的查詢和授權失敗
LOCKS：這對於瞭解系統將獲得哪些鎖以運行指定的查詢很有用。LOCKS 從 hive 3.2.0 開始支持
VECTORIZATION：將詳細信息添加到EXPLAIN輸出中，以顯示爲什麼未對Map和Reduce進行矢量化。從 Hive 2.3.0 開始支持
ANALYZE：用實際的行數註釋計劃。從 Hive 2.2.0 開始支持

在 hive cli 中輸入以下命令(hive 2.3.7)：

explain select sum(id) from test1;

得到結果（請逐行看完，即使看不懂也要每行都看）：

STAGE DEPENDENCIES:
  Stage-1 is a root stage
  Stage-0 depends on stages: Stage-1

STAGE PLANS:
  Stage: Stage-1
    Map Reduce
      Map Operator Tree:
          TableScan
            alias: test1
            Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
            Select Operator
              expressions: id (type: int)
              outputColumnNames: id
              Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
              Group By Operator
                aggregations: sum(id)
                mode: hash
                outputColumnNames: _col0
                Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE
                Reduce Output Operator
                  sort order:
                  Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE
                  value expressions: _col0 (type: bigint)
      Reduce Operator Tree:
        Group By Operator
          aggregations: sum(VALUE._col0)
          mode: mergepartial
          outputColumnNames: _col0
          Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE
          File Output Operator
            compressed: false
            Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE
            table:
                input format: org.apache.hadoop.mapred.SequenceFileInputFormat
                output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
                serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        ListSink

看完以上內容有什麼感受，是不是感覺都看不懂，不要着急，下面將會詳細講解每個參數，相信你學完下面的內容之後再看 explain 的查詢結果將遊刃有餘。

一個HIVE查詢被轉換爲一個由一個或多個stage組成的序列（有向無環圖DAG）。這些stage可以是MapReduce stage，也可以是負責元數據存儲的stage，也可以是負責文件系統的操作（比如移動和重命名）的stage。

我們將上述結果拆分看，先從最外層開始，包含兩個大的部分：

stage dependencies：各個stage之間的依賴性
stage plan：各個stage的執行計劃

先看第一部分 stage dependencies ，包含兩個 stage，Stage-1 是根stage，說明這是開始的stage，Stage-0 依賴 Stage-1，Stage-1執行完成後執行Stage-0。

再看第二部分 stage plan，裏面有一個 Map Reduce，一個MR的執行計劃分爲兩個部分：

Map Operator Tree：MAP端的執行計劃樹
Reduce Operator Tree：Reduce端的執行計劃樹

這兩個執行計劃樹裏面包含這條sql語句的 operator：

map端第一個操作肯定是加載表，所以就是 TableScan 表掃描操作，常見的屬性：

alias：表名稱
Statistics：表統計信息，包含表中數據條數，數據大小等

Select Operator：選取操作，常見的屬性：

expressions：需要的字段名稱及字段類型
outputColumnNames：輸出的列名稱
Statistics：表統計信息，包含表中數據條數，數據大小等

Group By Operator：分組聚合操作，常見的屬性：

aggregations：顯示聚合函數信息
mode：聚合模式，值有 hash：隨機聚合，就是hash partition；partial：局部聚合；final：最終聚合
keys：分組的字段，如果沒有分組，則沒有此字段
outputColumnNames：聚合之後輸出列名
Statistics：表統計信息，包含分組聚合之後的數據條數，數據大小等

Reduce Output Operator：輸出到reduce操作，常見屬性：

sort order：值爲空不排序；值爲 + 正序排序，值爲 - 倒序排序；值爲 +- 排序的列爲兩列，第一列爲正序，第二列爲倒序

Filter Operator：過濾操作，常見的屬性：

predicate：過濾條件，如sql語句中的where id>=1，則此處顯示(id >= 1)

Map Join Operator：join 操作，常見的屬性：

condition map：join方式，如Inner Join 0 to 1 Left Outer Join0 to 2
keys: join 的條件字段
outputColumnNames：join 完成之後輸出的字段
Statistics：join 完成之後生成的數據條數，大小等

File Output Operator：文件輸出操作，常見的屬性

compressed：是否壓縮
table：表的信息，包含輸入輸出文件格式化方式，序列化方式等

Fetch Operator 客戶端獲取數據操作，常見的屬性：

limit，值爲 -1 表示不限制條數，其他值爲限制的條數

好，學到這裏再翻到上面 explain 的查詢結果，是不是感覺基本都能看懂了。

實踐

本節介紹 explain 能夠爲我們在生產實踐中帶來哪些便利及解決我們哪些迷惑

1. join 語句會過濾 null 的值嗎？

現在，我們在hive cli 輸入以下查詢計劃語句

select a.id,b.user_name from test1 a join test2 b on a.id=b.id;

問：上面這條 join 語句會過濾 id 爲 null 的值嗎

執行下面語句：

explain select a.id,b.user_name from test1 a join test2 b on a.id=b.id;

我們來看結果 (爲了適應頁面展示，僅截取了部分輸出信息)：

TableScan
 alias: a
 Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
 Filter Operator
    predicate: id is not null (type: boolean)
    Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
    Select Operator
        expressions: id (type: int)
        outputColumnNames: _col0
        Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
        HashTable Sink Operator
           keys:
             0 _col0 (type: int)
             1 _col0 (type: int)
 ...

從上述結果可以看到 predicate: id is not null 這樣一行，說明 join 時會自動過濾掉關聯字段爲 null 值的情況，但 left join 或 full join 是不會自動過濾的，大家可以自行嘗試下。

2. group by 分組語句會進行排序嗎？

看下面這條sql

select id,max(user_name) from test1 group by id;

問：group by 分組語句會進行排序嗎

直接來看 explain 之後結果 (爲了適應頁面展示，僅截取了部分輸出信息)

 TableScan
    alias: test1
    Statistics: Num rows: 9 Data size: 108 Basic stats: COMPLETE Column stats: NONE
    Select Operator
        expressions: id (type: int), user_name (type: string)
        outputColumnNames: id, user_name
        Statistics: Num rows: 9 Data size: 108 Basic stats: COMPLETE Column stats: NONE
        Group By Operator
           aggregations: max(user_name)
           keys: id (type: int)
           mode: hash
           outputColumnNames: _col0, _col1
           Statistics: Num rows: 9 Data size: 108 Basic stats: COMPLETE Column stats: NONE
           Reduce Output Operator
             key expressions: _col0 (type: int)
             sort order: +
             Map-reduce partition columns: _col0 (type: int)
             Statistics: Num rows: 9 Data size: 108 Basic stats: COMPLETE Column stats: NONE
             value expressions: _col1 (type: string)
 ...

我們看 Group By Operator，裏面有 keys: id (type: int) 說明按照 id 進行分組的，再往下看還有 sort order: + ，說明是按照 id 字段進行正序排序的。

3. 哪條sql執行效率高呢？

觀察兩條sql語句

SELECT
    a.id,
    b.user_name
FROM
    test1 a
JOIN test2 b ON a.id = b.id
WHERE
    a.id > 2;

SELECT
    a.id,
    b.user_name
FROM
    (SELECT * FROM test1 WHERE id > 2) a
JOIN test2 b ON a.id = b.id;

這兩條sql語句輸出的結果是一樣的，但是哪條sql執行效率高呢
有人說第一條sql執行效率高，因爲第二條sql有子查詢，子查詢會影響性能
有人說第二條sql執行效率高，因爲先過濾之後，在進行join時的條數減少了，所以執行效率就高了

到底哪條sql效率高呢，我們直接在sql語句前面加上 explain，看下執行計劃不就知道了嘛

在第一條sql語句前加上 explain，得到如下結果

hive (default)> explain select a.id,b.user_name from test1 a join test2 b on a.id=b.id where a.id >2;
OK
Explain
STAGE DEPENDENCIES:
  Stage-4 is a root stage
  Stage-3 depends on stages: Stage-4
  Stage-0 depends on stages: Stage-3

STAGE PLANS:
  Stage: Stage-4
    Map Reduce Local Work
      Alias -> Map Local Tables:
        $hdt$_0:a
          Fetch Operator
            limit: -1
      Alias -> Map Local Operator Tree:
        $hdt$_0:a
          TableScan
            alias: a
            Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
            Filter Operator
              predicate: (id > 2) (type: boolean)
              Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
              Select Operator
                expressions: id (type: int)
                outputColumnNames: _col0
                Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
                HashTable Sink Operator
                  keys:
                    0 _col0 (type: int)
                    1 _col0 (type: int)

  Stage: Stage-3
    Map Reduce
      Map Operator Tree:
          TableScan
            alias: b
            Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
            Filter Operator
              predicate: (id > 2) (type: boolean)
              Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
              Select Operator
                expressions: id (type: int), user_name (type: string)
                outputColumnNames: _col0, _col1
                Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
                Map Join Operator
                  condition map:
                       Inner Join 0 to 1
                  keys:
                    0 _col0 (type: int)
                    1 _col0 (type: int)
                  outputColumnNames: _col0, _col2
                  Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE
                  Select Operator
                    expressions: _col0 (type: int), _col2 (type: string)
                    outputColumnNames: _col0, _col1
                    Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE
                    File Output Operator
                      compressed: false
                      Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE
                      table:
                          input format: org.apache.hadoop.mapred.SequenceFileInputFormat
                          output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
                          serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
      Local Work:
        Map Reduce Local Work

  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        ListSink

在第二條sql語句前加上 explain，得到如下結果

hive (default)> explain select a.id,b.user_name from(select * from  test1 where id>2 ) a join test2 b on a.id=b.id;
OK
Explain
STAGE DEPENDENCIES:
  Stage-4 is a root stage
  Stage-3 depends on stages: Stage-4
  Stage-0 depends on stages: Stage-3

STAGE PLANS:
  Stage: Stage-4
    Map Reduce Local Work
      Alias -> Map Local Tables:
        $hdt$_0:test1
          Fetch Operator
            limit: -1
      Alias -> Map Local Operator Tree:
        $hdt$_0:test1
          TableScan
            alias: test1
            Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
            Filter Operator
              predicate: (id > 2) (type: boolean)
              Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
              Select Operator
                expressions: id (type: int)
                outputColumnNames: _col0
                Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
                HashTable Sink Operator
                  keys:
                    0 _col0 (type: int)
                    1 _col0 (type: int)

  Stage: Stage-3
    Map Reduce
      Map Operator Tree:
          TableScan
            alias: b
            Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
            Filter Operator
              predicate: (id > 2) (type: boolean)
              Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
              Select Operator
                expressions: id (type: int), user_name (type: string)
                outputColumnNames: _col0, _col1
                Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
                Map Join Operator
                  condition map:
                       Inner Join 0 to 1
                  keys:
                    0 _col0 (type: int)
                    1 _col0 (type: int)
                  outputColumnNames: _col0, _col2
                  Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE
                  Select Operator
                    expressions: _col0 (type: int), _col2 (type: string)
                    outputColumnNames: _col0, _col1
                    Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE
                    File Output Operator
                      compressed: false
                      Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE
                      table:
                          input format: org.apache.hadoop.mapred.SequenceFileInputFormat
                          output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
                          serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
      Local Work:
        Map Reduce Local Work

  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        ListSink

大家有什麼發現，除了表別名不一樣，其他的執行計劃完全一樣，都是先進行 where 條件過濾，在進行 join 條件關聯。說明 hive 底層會自動幫我們進行優化，所以這兩條sql語句執行效率是一樣的。

最後

以上僅列舉了3個我們生產中既熟悉又有點迷糊的例子，explain 還有很多其他的用途，如查看stage的依賴情況、排查數據傾斜、hive 調優等，小夥伴們可以自行嘗試。

往期推薦

實戰教學 | 全網少有的Ambari自定義服務集成實戰（全）

Ambari 2.7.3.0 安裝部署 hadoop 3.1.0.0 集羣完整版，附帶移除 SmartSense 服務

HBase原理（一）：架構理解

HBase二次開發之搭建HBase調試環境，如何遠程debug HBase源代碼

看完您如果還不明白 Kerberos 原理，算我輸！

最後說一句(求關注，別白嫖我)

掃一掃，我們的故事就開始了。

文章有用，點贊、轉發、在看都是一種支持，求三連！

另外公衆號改變了推送規則，大家看文章不要忘記點擊最下方的在看，點贊按鈕，這樣微信自動識別爲常看公衆號，否則很可能推送的文章可能淹沒在別的文章找不到，謝謝大家。

讓我知道你在看

本文分享自微信公衆號 - 大數據實戰演練（gh_f942bfc92d26）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

Hive底層原理：explain執行計劃詳解

理論

實踐

1. join 語句會過濾 null 的值嗎？

2. group by 分組語句會進行排序嗎？

3. 哪條sql執行效率高呢？

最後

最後說一句(求關注，別白嫖我)

乾貨 | 如何爲已有的 ambari 集羣修改主機名

徹底搞清Flink中的Window（Flink版本1.8）

NameNode 用了什麼神祕技術來支撐元數據百萬併發讀寫的

Flink實時計算topN熱榜

Hive底層原理：explain執行計劃詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結