hive部分：hive的优化，MapReduce的优化

原創

Zsigner

2020-06-25 06:03

推荐大家去看原文博主的文章，条理清晰阅读方便，转载是为了方便以后个人查阅

https://blog.csdn.net/wyqwilliam/article/details/81973974

hive 核心思想：

把 Hive SQL 当做 Mapreduce 程序去优化。

以下 SQL 不会转为 Mapreduce 来执行：

select 仅查询本表字段； where 仅对本表字段做条件过滤。

explain 命令可以显示执行计划：

EXPLAIN [EXTENDED] query; EXTENDED 可以看到更详细的信息。

本地模式提高执行效率

本地模式：

mapreduce 任务运行在一台节点上，该节点把需要的资源从其他机器 copy 过来

集群模式：

mapreduce 任务在 hadoop 集群中执行开启本地模式：

set hive.exec.mode.local.auto=true;

注意：

hive.exec.mode.local.auto.inputbytes.max 默认值为 128M，表示加载文件的最大值，若大于该配置仍会以集群方式来运行

查询的数据在数据量不大的表中，这种情况使用本地模式，数据量大时使用集群模式

并行计算

hive 执行 sql 默认是顺序执行，如下 sql 如果使用并行计算会大大提高效率，但是集群压力也增大：

select wc.col1,bk.col2 from
(select count(*) as col1 from wordcount) wc,
(select count(*) as col2 from bucket) bk;

两条子查询可以使用并行计算

通过设置以下参数开启并行模式：

set hive.exec.parallel=true;

注意：

hive.exec.parallel.thread.number

代表一次 SQL 计算中允许并行执行的 job 个数的最大值

严格模式

查询限制：

1) 对于分区表，必须添加 where 对于分区字段的条件过滤；

2) order by 语句必须包含 limit 输出限制；

3) 限制执行笛卡尔积的查询。

笛卡尔集中的记录不一定正确，为了避免笛卡尔集可以在 WHERE 中加入有效的连接条件，实际运行环境下应该避免使用笛卡尔全集。

通过设置以下参数开启严格模式：

set hive.mapred.mode=strict;（默认为：nonstrict 非严格模式）

Hive 排序

Order By 对于查询结果做全排序，只允许有一个 reduce 处理。当数据量较大时，应慎用。严格模式下，必须结合 limit 来使用

Sort By 对於单个 reduce 的数据进行排序

Distribute By 分区排序，经常和 Sort By 结合使用

Cluster By 相当于 Sort By + Distribute By，

Cluster By 不能通过 asc、desc 的方式指定排序规则；可通过 distribute by column sort by column asc|desc 的方式结合使用。

Hive join

Join 计算时，将小表（驱动表）放在 join 的左边

Map Join：在 Map 端完成 Join（避免数据倾斜）

两种实现方式：

1) SQL 方式，在 SQL 语句中添加 MapJoin 标记（mapjoin hint）

语法：

SELECT /*+ MAPJOIN(smallTable) */ smallTable.key, bigTable.value FROM smallTable JOIN bigTable ON smallTable.key = bigTable.key;

2) 开启自动的 MapJoin

通过修改以下配置启用自动的 mapjoin：

set hive.auto.convert.join = true; 该参数为 true 时，Hive 自动对左边的表统计量，如果是小表就加入内存，即对小表使用 Map join

Map-Side 聚合

通过设置以下参数开启在 Map 端的聚合：

set hive.map.aggr=true;

控制 Hive 中 Map 以及 Reduce 的数量

Map 数量相关的参数：

mapred.max.split.size

一个 split 的最大值，即每个 map 处理文件的最大值

mapred.min.split.size.per.node

一个节点上 split 的最小值

mapred.min.split.size.per.rack

一个机架上 split 的最小值

Reduce 数量相关的参数：

mapred.reduce.tasks

强制指定 reduce 任务的数量

hive.exec.reducers.bytes.per.reducer

每个 reduce 任务处理的数据量

hive.exec.reducers.max

每个任务最大的 reduce 数

JVM 重用

适用场景：

1) 小文件个数过多

2) task 个数过多频繁的申请资源，释放资源降低了执行效率

通过 set mapred.job.reuse.jvm.num.tasks=n; （n 为 task 插槽个数）来设置，道理与 “池”类似。

缺点：

设置开启之后，task 插槽会一直占用资源，不论是否有 task 运行，直到所有的 task 即整个 job 全部执行完成时，才会释放所有的 task 插槽资源。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

hive部分：hive的优化，MapReduce的优化

hive 核心思想：

本地模式提高执行效率

并行计算

严格模式

Hive 排序

Hive join

Map-Side 聚合

控制 Hive 中 Map 以及 Reduce 的数量

JVM 重用

《Python进阶》学习笔记

Leetcode 3161. 物块放置查询

leetcode 60 排列序列

一个docker容器暴露多个端口

微服务实践之使用 Visual Studio 2022 调试Dapr 应用程序

wpf附加属性理解 WPF附加属性

Flink的狀態介紹和有狀態的計算

SparkSQL RDD,DataFrame,DataSet三者的區別與聯繫

hive窗口函數（V1.0）

spark機器學習 K-means聚類算法

Hive建模類型

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結