Hive谓词下推

原創

2020-04-30 02:27

普及一个术语：谓词下推

谓词下推是一种自动优化规则，如果养成好的查询习惯你其实并不需要hive自动去帮你谓词下推。

因为优化器的规则经常变，记住规则比较难，养成好的查询习惯比较简单。

如果没有听说过这个术语，没关系，很有可能的是你已经养成了好的查询习惯，根本不需要hive帮你优化，但还是了解一下好。

谓词下推 Predicate Pushdown（PPD）：简而言之，就是在不影响结果的情况下，尽量将过滤条件提前执行。谓词下推后，过滤条件在map端执行，减少了map端的输出，降低了数据在集群上传输的量，节约了集群的资源，也提升了任务的性能。——《Hive中的Predicate Pushdown Rules（谓词下推规则)》

所以，如果我们能够做到，先过滤，再join，先筛选出有用的数据，再进行其他操作，我们其实不需要知道“谓词下推”这个术语。

但是，知道它，可以避免一些失误。同时，可以拓宽自己的知识面。

所谓hive中的谓词下推指的是：

hive中join操作：如果直接两个表进行join，在最后再进行两个表的where条件过滤，这样的话实际上hive会将两个表先join起来，最后join出来的大表再进行where筛选，这样的话导致了全表join并且效率低下：

如下：

    select a.id,a.value1,b.value2 from table1 a
      left outer join table2 b on a.id=b.id
    where b.ds>='20181201' and b.ds<'20190101'
    and a.ds>='20181201' and a.ds<'20190101'

效率很低并且占用集群性能！！

但是我们在hive的join查询的时候，先将每个表的数据进行筛选，筛选完了之后的数据在进行join这样，join两端的表数据量就相对变得很少了，提升了效率，也比变了占用更多的集群资源。

采取的方式是：

    select a.id,a.value1,b.value2 from
      (select * from table1 ss where ss.ds>='20181201' and ss.ds<'20190101' ) a
    left outer join
      (select * from table2 ss where ss.ds>='20181201' and ss.ds<'20190101' ) b
    on a.id=b.id

参考:

hive优化之谓词下推

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Hive谓词下推

數據分析方法論-不同的分析階段

一個排序問題

微信小程序模擬器在筆記本上input無法獲取焦點，無法輸入，怎麼辦

GCViewer:GC日誌可視化工具GCViewer

內存調優實例：JVM堆大小

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結