hive的Reduce join與Map join

原創

2020-06-14 11:07

說明

hive 中的join可分爲倆類，一種是common join（也叫Reduce join或shuffle join),另一種是 map join，後者是對hive join的一個優化，利用本地的task對較小的表hash生產一個hashtable文件，然後直接和map出來另一個表進行匹配，最終完成join\
set hive.auto.convert.join = false 在0.7.0到0.10.0版本默認是false，表示不使用優化
set hive.auto.convert.join = true在0.11.0到之後的版本是ture,代表使用優化

reduce join流程圖

可以看到普通的join有shuffle

map join流程圖

map join 沒有shuffle過程，他是對小表進行hash到hdfs 臨時緩存中生成hashtable file,然後直接匹配。

查看reduce join的執行計劃

設置set hive.auto.convert.join = false，不使用優化
執行計劃
```
1. explain [extended] select  e.empno, e.ename, e.deptno, d.dname from emp e join ruoze_dept d on e.deptno = d.deptno ;
```
通過執行計劃可以看出，正常的join是使用倆個map和一個reduce來完成join，因爲過程中有shuffle,所以會有網絡io,執行效率相對較小

查看map join的執行計劃

設置set hive.auto.convert.join =ture，使用優化
執行計劃
```
1. explain [extended] select  e.empno, e.ename, e.deptno, d.dname from emp e join ruoze_dept d on e.deptno = d.deptno ;
```
使用優化的map join過程中沒有shuffle,是通過本地的一個task hash較小的表（較小的表的識別可以通過元數據信息判斷）生成hashtable file文件，並保存到hdfs的臨時緩存當中，然後通過與map出來的另一個表進行直接匹配，得出結果，因此過程中沒有shuffle，不需要網絡，所以效率相對來說較快，即爲優化

本文中執行計劃沒有顯示出來，詳細的執行計劃可以自己去解讀，每個步驟都有很重要的含義。
來自@若澤大數據

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Hive特殊的數據類型：Array，Map，Struct

1、Array #創建一張包含array字段的表，array字段的分割符采用的是逗號 create table hive_array( name string, work_locations array<string> ) ROW

2020-07-06 17:07:03

presto搭建

1.Presto簡介 Presto是由Facebook開源，完全基於內存的並行計算以及分佈式SQL交互式查詢引擎。它可以共享Hive的元數據，然後直接訪問HDFS中的數據，同時支持Hadoop中常見的文件格式比如文本，ORC

2022-12-19 09:37:36

有哪些大數據處理工具？

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！阿里妹導讀：近幾年裏，大數據行業發展勢頭迅猛，故而相應的分佈式產品和架構層出不窮，本文分享作者在大數據系統實踐過程中接觸過的一些工具及使

雲棲號資訊小編

2020-07-22 12:37:48

Flink 1.11.0 發佈，有哪些值得關注的新特性？

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！阿里妹導讀：7 月 7 日，Flink 1.11.0 正式發佈。歷時近 4 個月，Flink 在生態、易用性、生產可用性、穩定性等方面都

雲棲號資訊小編

2020-07-14 11:49:59

Apache Hive+Kerberos安裝配置及 Kettle訪問帶 Kerberos 認證的 Hive的集成

目錄1 連接2 KDC 安裝2.1 安裝 Kerberos 服務2.2 配置 /var/kerberos/krb5kdc/kdc.conf2.3 配置 /var/kerberos/krb5kdc/kadm5.acl2.4 配置 /

2020-07-08 09:55:10

hive鎖的問題

hive鎖的問題最近在insert into 插入數據的時候遇到了hive鎖表的問題，下面是報錯信息，原因就是一張hive的臨時表被鎖造成報錯。 1.Hive中定義了兩種鎖的模式：共享鎖（S）和排它鎖（X），顧名思義，多個共

2020-07-08 09:11:58

Hive批量刪除一段時間分區和動態分區更新數據

Hive批量刪除一段時間分區和動態分區更新數據 1.hive動態分區 -- 批量刪除分區數據 alter table dm.dm_call_gateway_bill_time_detail drop partition(dt >=

2020-07-08 09:11:58

HIVE 權限配置 [沒有趟過坑的人生是不完美的]

這兩天被hive的權限問題,折騰的不輕.記錄一下 Hive的基本配置我就不細說了,自行配置,網上一堆堆的. 1.背景要求可以使用hdfs和hive用戶操作自己創建的數據庫. 權限不可亂. 要求,如下,[基本就是裸奔,沒做任何配置,但依舊

2020-07-08 02:23:22

Hive管理表和外部表的區別

前言：所謂外部表，就是Hive並非認爲其完全擁有這份數據。刪除該表並不會刪除掉這份數據，不過描述表的元數據信息會被刪除掉。關於Hive數據倉庫的管理表（MANAGED_TABLE）和外部表（EXTERNAL_TABLE）的區別，

情深不仅李义山

2020-07-08 01:13:18

hive，order by ,distribute by ,sort by ,cluster by 區別，作用，用法

0 order by 是全局排序，把所有數據放在一個reduce task中排序。sort by是在一個reduce中排序，該reduce的輸出有序，是局部有序。distriute by c1 是作用於map輸出的結果，把c1的值相同的記

二十六画生的博客

2020-07-07 23:55:04

Hive的SQL編譯源碼詳解

看圖完事：

2020-07-07 13:47:42

Hive內嵌字符處理函數：get_json_object，parse_url

1.Hive內嵌函數對Json字符和網址的解析處理 Return Type Name(Signature) Description string parse_url(string urlString, string par

2020-07-07 03:36:37

Hql取上週、上月、上季度、去年第一天和最後一天

上週一： select date_sub(current_date(),pmod(datediff(cast(current_date() as string),'2000-01-03'),7)+7) 上週日： select d

太和վ'ᴗ' ի

2020-07-07 01:50:27

分區太多引起的內存溢出

執行一個hive sql時報了一個下面的錯誤，從錯誤堆棧上來看，是在SQL編譯、解析、優化過程中出的錯，還沒有提交到YARN上執行。從Utilities.getPartitionDesc這句來看是優化的時候，在讀取分區信息時出現

2020-07-06 23:41:40

hive窗口函數（V1.0）

推薦大家去看原文博主的文章，條理清晰閱讀方便，轉載是爲了方便以後個人查閱 https://www.jianshu.com/p/12eaf61cf6e1 一：前言根據官網的介紹，hive推出的窗口函數功能是對hive sql的功能增強，確

2020-07-06 21:58:57

24小時熱門文章

最新文章

最新評論文章