hive的Reduce join与Map join

说明

  • hive 中的join可分为俩类,一种是common join(也叫Reduce join或shuffle join),另一种是 map join,后者是对hive join的一个优化,利用本地的task对较小的表hash生产一个hashtable文件,然后直接和map出来另一个表进行匹配,最终完成join\
  • set hive.auto.convert.join = false 在0.7.0到0.10.0版本默认是false,表示不使用优化
  • set hive.auto.convert.join = true在0.11.0到之后的版本是ture,代表使用优化

reduce join流程图

这里写图片描述
可以看到普通的join有shuffle

map join流程图

这里写图片描述
map join 没有shuffle过程,他是对小表进行hash到hdfs 临时缓存中生成hashtable file,然后直接匹配。

查看reduce join的执行计划

  • 设置set hive.auto.convert.join = false,不使用优化

  • 执行计划

    1. explain [extended] select  e.empno, e.ename, e.deptno, d.dname from emp e join ruoze_dept d on e.deptno = d.deptno ;
    

    通过执行计划可以看出,正常的join是使用俩个map和一个reduce来完成join,因为过程中有shuffle,所以会有网络io,执行效率相对较小

查看map join的执行计划

  • 设置set hive.auto.convert.join =ture,使用优化
  • 执行计划

    1. explain [extended] select  e.empno, e.ename, e.deptno, d.dname from emp e join ruoze_dept d on e.deptno = d.deptno ;
    

    使用优化的map join过程中没有shuffle,是通过本地的一个task hash较小的表(较小的表的识别可以通过元数据信息判断)生成hashtable file文件,并保存到hdfs的临时缓存当中,然后通过与map出来的另一个表进行直接匹配,得出结果,因此过程中没有shuffle,不需要网络,所以效率相对来说较快,即为优化

本文中执行计划没有显示出来,详细的执行计划可以自己去解读,每个步骤都有很重要的含义。
来自@若泽大数据

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章