说明
- hive 中的join可分为俩类,一种是common join(也叫Reduce join或shuffle join),另一种是 map join,后者是对hive join的一个优化,利用本地的task对较小的表hash生产一个hashtable文件,然后直接和map出来另一个表进行匹配,最终完成join\
- set hive.auto.convert.join = false 在0.7.0到0.10.0版本默认是false,表示不使用优化
- set hive.auto.convert.join = true在0.11.0到之后的版本是ture,代表使用优化
reduce join流程图
可以看到普通的join有shuffle
map join流程图
map join 没有shuffle过程,他是对小表进行hash到hdfs 临时缓存中生成hashtable file,然后直接匹配。
查看reduce join的执行计划
设置set hive.auto.convert.join = false,不使用优化
执行计划
1. explain [extended] select e.empno, e.ename, e.deptno, d.dname from emp e join ruoze_dept d on e.deptno = d.deptno ;
通过执行计划可以看出,正常的join是使用俩个map和一个reduce来完成join,因为过程中有shuffle,所以会有网络io,执行效率相对较小
查看map join的执行计划
- 设置set hive.auto.convert.join =ture,使用优化
执行计划
1. explain [extended] select e.empno, e.ename, e.deptno, d.dname from emp e join ruoze_dept d on e.deptno = d.deptno ;
使用优化的map join过程中没有shuffle,是通过本地的一个task hash较小的表(较小的表的识别可以通过元数据信息判断)生成hashtable file文件,并保存到hdfs的临时缓存当中,然后通过与map出来的另一个表进行直接匹配,得出结果,因此过程中没有shuffle,不需要网络,所以效率相对来说较快,即为优化
本文中执行计划没有显示出来,详细的执行计划可以自己去解读,每个步骤都有很重要的含义。
来自@若泽大数据