一、Tez 安装
1 下载地址
https://mirrors.tuna.tsinghua.edu.cn/apache/tez/0.9.0/
2 二进制包安装
2.1 解压并重命名
[root@hadoop01 ~]# tar -zxvf /home/apache-tez-0.9.0-bin.tar.gz -C /usr/local/
[root@hadoop01 ~]# mv /usr/local/apache-tez-0.9.0-bin/ /usr/local/tez-0.9.0/
2.2 上传tez.tar.gz到hdfs
[root@hadoop01 tez-0.9.0]# hdfs dfs -mkdir /tez-0.9.0
[root@hadoop01 tez-0.9.0]# hdfs dfs -put /usr/local/tez-0.9.0/share/tez.tar.gz /tez-0.9.0
2.3 配置环境
[root@hadoop01 ~]# vi /etc/profile
增加内容如下:
export TEZ_CONF_DIR=$HADOOP_CONF_DIR
export TEZ_JARS=/usr/local/tez-0.9.0/*:/usr/local/tez-0.9.0/lib/*
export HADOOP_CLASSPATH=$TEZ_CONF_DIR:$TEZ_JARS:$HADOOP_CLASSPATH
[root@hadoop01 ~]# source /etc/profile
2.4 创建配置tez-site.xml文件
1、
[root@hadoop01 ~]# vi /home/hadoop/apps/hadoop-2.8.5/etc/hadoop/tez-site.xml
2、
tez-site.xml文件内容如下:
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
<property>
<name>tez.lib.uris</name>
<value>${fs.defaultFS}/tez-0.9.0/tez.tar.gz</value>
</property>
<property>
<name>tez.container.max.java.heap.fraction</name>
<value>0.2</value>
</property>
</configuration>
更多配置参考默认配置:/usr/local/tez-0.9.0/conf/tez-default-template.xml
2.5 Tez和Hadoop的兼容
tez下的lib目录中的hadoop包的版本和实际安装的hadoop版本不一定一致,需要将其jar包更换
1、删除不符合版本的jar:
[root@hadoop01 tez-0.9.0]# rm -rf ./lib/hadoop-mapreduce-client-core-2.7.0.jar ./lib/hadoop-mapreduce-client-common-2.7.0.jar
2、重新在hadoop目录中拷贝:
[root@hadoop01 ~]# cp /home/hadoop/apps/hadoop-2.8.5/share/hadoop/mapreduce/hadoop-mapreduce-client-common-2.8.5.jar /usr/local/tez-0.9.0/lib/
[root@hadoop01 ~]# cp /home/hadoop/apps/hadoop-2.8.5/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.8.5.jar /usr/local/tez-0.9.0/lib/
2.6 测试Tez引擎
[root@hadoop01 ~]# hive --service metastore &
[root@hadoop01 ~]# hive
hive> use xry;
hive> set hive.execution.engine=tez;
hive> select count(*) from u4 group by user_id;
二、Tez 简介
1 官网
http://tez.apache.org/
2 介绍
Tez是一个apache的开源项目,目的在于构建一个应用框架,该框架允许处理数据的复杂有向无环任务图。目前是基于Apache Hadoop YARN。
3 设计核心
3.1 增强终端用户使用:
1 灵活的数据流定义API
2 灵活的输入输出运行模型(强调处理模型)
3 数据类型无关
4 简介部署
3.2 执行性能
1 通过Map Reduce提高性能
2 资源优化管理
3 执行时计划重新配置
4 物理数据流的动态决策
4 架构图
通过允许像Apache Hive和Apache Pig这样的项目运行复杂的任务DAG,Tez可以用来处理数据,早期使用多个MR作业,现在只需要一个Tez作业,如下所示。
三、Tez 优化
1 AM、Container 大小设置
1、tez.am.resource.memory.mb #设置 tez AM容器内存
默认值:1024
配置文件:tez-site.xml
建议:不小于或者等于yarn.scheduler.minimum-allocation-mb值。
2、hive.tez.container.size #设置 tez container内存
默认值:-1
默认情况下,Tez将生成一个mapper大小的容器。这可以用来覆盖默认值。
配置文件:hive-site-xml
建议:不小于或者是yarn.scheduler.minimum-allocation-mb的倍数
2 AM、Container JVM参数设置
1、tez.am.launch.cmd-opts #设置 AM jvm,启动TEZ任务进程期间提供的命令行选项。
默认值:-XX:+PrintGCDetails -verbose:gc -XX:+PrintGCTimeStamps -XX:+UseNUMA -XX:+UseParallelGC(用于GC),默认的大小:80%*tez.am.resource.memory.mb
配置文件:tez-site.xml
建议:不要在这些启动选项中设置任何xmx或xms,以便tez可以自动确定它们。
2、hive.tez.java.ops #设置 container jvm
默认值:Hortonworks建议“–server –Djava.net.preferIPv4Stack=true–XX:NewRatio=8 –XX:+UseNUMA –XX:UseG1G”,默认大小:80%*hive.tez.container.size
说明:在hive 2.x的官方文档中没有找到这个参数。看有些博客里面有这个值。
配置文件:hive-site.xml
3、tez.container.max.java.heap.fraction #设置task/AM占用jvm内存大小的比例。
默认值:0.8
配置文件:tez-site.xml
说明:这个值按具体需要调整,当内存不足时,一般都要调小。
3 Hive内存Map Join参数设置
三、Hive内存Map Join参数设置
1、tez.runtime.io.sort.mb #设置输出排序内存大小
默认值:100
配置文件:tez-site.xml
建议:40%*hive.tez.container.size,一般不超过2G
2、hive.auto.convert.join.noconditionaltask #是否将多个mapjoin合并为一个
默认值:true
建议使用默认值。
配置文件:hive-site.xml
3、hive.auto.convert.join.noconditionaltask.size
默认值:10000000 (10M)
说明:这个参数使用的前提是hive.auto.convert.join.noconditionaltask值为true,多个mapjoin转换为1个时,所有小表的文件大小总和小于这个值,这个值只是限制输入的表文件的大小,并不代表实际mapjoin时hashtable的大小。 建议值:1/3* hive.tez.container.size
配置文件:hive-site.xml
4、tez.runtime.unordered.output.buffer.size-mb #如果不直接写入磁盘,使用的缓冲区大小
默认值:100M
建议:10%* hive.tez.container.size
配置文件:tez-site.xml
5、tez.am.container.reuse.enabled #容器重用
默认值:true
配置文件:tez-ste.xml
4 参考文章链接
nordered.output.buffer.size-mb #如果不直接写入磁盘,使用的缓冲区大小
默认值:100M
建议:10%* hive.tez.container.size
配置文件:tez-site.xml
5、tez.am.container.reuse.enabled #容器重用
默认值:true
配置文件:tez-ste.xml
## 4 参考文章链接
> https://www.cnblogs.com/yjt1993/p/11050791.html