tez 0.9.0 的安装和测试

1 tez的概览

环境介绍:hive 1.2.1 hadoop 2.7.1 tez 0.9.0(hadoop2.6不兼容)

1.1 tez介绍

1.1.1 介绍

tez是一个apache的开源项目,意在构建一个应用框架,能通过复杂任务的DAG来处理数据。它是基于当前的hadoop yarn之上,换句话就是yarn为其提供资源。

tez主要的两个设计目标:

增强终端用户使用:

灵活的数据流定义API

灵活的输入输出运行时模型(强调处理模型)

数据类型无关

简洁部署

高性能执行:

通过mapreduce提高性能

资源优化管理

执行时计划重定义

物理数据流的动态决策

tez可以像Apache Hive和Apache Pig这样的项目运行复杂的任务DAG,Tez可以用于处理数据,早期使用了多个MR作业,现在在单个Tez作业中,如下所示:
在这里插入图片描述

注:

天蓝色方块为map,绿色方块为reduce,云状的为输出隐藏,绿色的圆圈为一个mr。

参考官网:http://tez.apache.org/

2 tez的安装

2.1 tez下载

tez提供咯二进制包和源码包,二者官网下载路径:
https://mirrors.tuna.tsinghua.edu.cn/apache/tez/0.9.0/

注:
官方提供咯源码包和二进制包,我这儿就不在下载源码来编译,而是直接使用其二进制包来安装。二进制包需要考虑与hadoop版本的兼容问题。

2.2 tez源码编译

暂时不下载源码包来编译,费时,可以自行参考官网编译。参考官网编译地址:
http://tez.apache.org/install.html

2.3 tez的安装

2.3.1 解压并配置环境

解压重命名:
[root@hadoop01 ~]# tar -zxvf /home/apache-tez-0.9.0-bin.tar.gz -C /usr/local/
[root@hadoop01 ~]# mv /usr/local/apache-tez-0.9.0-bin/ /usr/local/tez-0.9.0/

上传tez.tar.gz到hdfs中一个目录中:
[root@hadoop01 tez-0.9.0]# hdfs dfs -mkdir /tez-0.9.0
[root@hadoop01 tez-0.9.0]# hdfs dfs -put /usr/local/tez-0.9.0/share/tez.tar.gz /tez-0.9.0

配置环境:
[root@hadoop01 ~]# vi /etc/profile
增加内容如下图:

在这里插入图片描述

然后保存退出,验证环境变量即可。

[root@hadoop01 ~]# source /etc/profile

2.3.2 配置配置文件

在hadoop的配置目录下创建tez-site.xml配置文件,内容如下:

[root@hadoop01 tez-0.9.0]# vi /usr/local/hadoop-2.7.1/etc/hadoop/tez-site.xml
文件中添加如下内容:
<?xml version="1.0" encoding="UTF-8"?>

<configuration>
  <property>
    <name>tez.lib.uris</name>
    <value>${fs.defaultFS}/tez-0.9.0/tez.tar.gz</value>
  </property>

  <property>
    <name>tez.container.max.java.heap.fraction</name>
    <value>0.2</value>
  </property>
</configuration>

更多配置参考默认配置:/usr/local/tez-0.9.0/conf/tez-default-template.xml

2.4 tez、hadoop、hive整合

2.4.1 tez和hadoop的兼容

tez下的lib目录中的hadoop包的版本和真实安装的hadoop版本不一致,需要将其jar包换成一致.
删除不符合版本的jar:
[root@hadoop01 tez-0.9.0]# rm -rf ./lib/hadoop-mapreduce-client-core-2.7.0.jar ./lib/hadoop-mapreduce-client-common-2.7.0.jar
重新再hadoop目录中拷贝:
[root@hadoop01 tez-0.9.0]# cp /usr/local/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-client-common-2.7.1.jar /usr/local/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.7.1.jar /usr/local/tez-0.9.0/lib/

然后启动hadoop和hive。

2.4.2 tez和hive结合

如果要将hive的执行引擎更换成tez,则只需要设置执行引擎即可。
set hive.execution.engine=tez;

注意:

1、jar包冲突问题。

2、tez引擎不能使用,需要测试判断。

3 tez案例

3.1 tez执行

创建表:
create table if not exists tz(
id int,
age int
)
row format delimited fields terminated by '\t'
;

create table if not exists tz_par(
age int,
age_cnt int
)
partitioned by(dt string)
row format delimited fields terminated by '\t'
;


数据:
vi /home/tz
zs	16
ls	18
ww	18
goudan	18
mazi	16

加载数据:
load data local inpath "/home/tz" into table tz;

执行查询:

insert into tz_par partition(dt="2019-08-12")
select
age,
count(*)
from tz
group by age
;
执行状态和查看结果,如下图:

在这里插入图片描述

3.2 还原mr执行

一般情况下,除非整个项目以tez执行,如果仅仅是一部分,则需要两个执行引擎随时切换。

创建表:
create table if not exists tz_par1(
age int,
age_cnt int
)
partitioned by(dt string)
row format delimited fields terminated by '\t'
;


执行查询:
set hive.execution.engine=mr;
insert into tz_par1 partition(dt="2019-08-12")
select
age,
count(*)
from tz
group by age
;

查看执进度和结果如下:

在这里插入图片描述

到此为止,证明我们的语句真的可以使用tez引擎来计算咯。

4 tez优化

一、AM、Container大小设置
1、tez.am.resource.memory.mb  #设置 tez AM容器内存
  默认值:1024  
  配置文件:tez-site.xml
  建议:不小于或者等于yarn.scheduler.minimum-allocation-mb值。
  

2、hive.tez.container.size  #设置 tez container内存
  默认值:-1
  默认情况下,Tez将生成一个mapper大小的容器。这可以用来覆盖默认值。
  配置文件:hive-site-xml
  建议:不小于或者是yarn.scheduler.minimum-allocation-mb的倍数
  
二、AM、Container JVM参数设置
1、tez.am.launch.cmd-opts  #设置 AM jvm,启动TEZ任务进程期间提供的命令行选项。
  默认值:-XX:+PrintGCDetails -verbose:gc -XX:+PrintGCTimeStamps -XX:+UseNUMA -XX:+UseParallelGC(用于GC),默认的大小:80%*tez.am.resource.memory.mb
  配置文件:tez-site.xml
  建议:不要在这些启动选项中设置任何xmx或xms,以便tez可以自动确定它们。
  

2、hive.tez.java.ops  #设置 container jvm
  默认值:Hortonworks建议“–server –Djava.net.preferIPv4Stack=true–XX:NewRatio=8 –XX:+UseNUMA –XX:UseG1G”,默认大小:80%*hive.tez.container.size
  说明:在hive 2.x的官方文档中没有找到这个参数。看有些博客里面有这个值。
  配置文件:hive-site.xml

3、tez.container.max.java.heap.fraction  #设置task/AM占用jvm内存大小的比例。
  默认值:0.8
  配置文件:tez-site.xml
  说明:这个值按具体需要调整,当内存不足时,一般都要调小。

三、Hive内存Map Join参数设置
1、tez.runtime.io.sort.mb  #设置输出排序内存大小
  默认值:100
  配置文件:tez-site.xml
  建议:40%*hive.tez.container.size,一般不超过2G
2、hive.auto.convert.join.noconditionaltask  #是否将多个mapjoin合并为一个
  默认值:true
  建议使用默认值。
  配置文件:hive-site.xml
3、hive.auto.convert.join.noconditionaltask.size  
  默认值:10000000  (10M)
  说明:这个参数使用的前提是hive.auto.convert.join.noconditionaltask值为true,多个mapjoin转换为1个时,所有小表的文件大小总和小于这个值,这个值只是限制输入的表文件的大小,并不代表实际mapjoin时hashtable的大小。 建议值:1/3* hive.tez.container.size
  配置文件:hive-site.xml
4、tez.runtime.unordered.output.buffer.size-mb  #如果不直接写入磁盘,使用的缓冲区大小
  默认值:100M
  建议:10%* hive.tez.container.size
  配置文件:tez-site.xml

5、tez.am.container.reuse.enabled  #容器重用
  默认值:true
  配置文件:tez-ste.xml
  
参考网址:https://www.cnblogs.com/yjt1993/p/11050791.html

5 更新tez

环境变更:hive 2.3.6 hadoop 2.7.1 tez 0.9.0

问题:

二进制包需要考虑与hadoop版本的兼容问题。
容易报错为:

hive> set hive.execution.engine=tez;
hive> select count(id) from sq1 group by id;
Query ID = root_20190926004448_205c4f24-e8a2-4c7c-b581-c705b62763ef
Total jobs = 1
Launching Job 1 out of 1
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask

查看历史服务中的具体错误为:
Error: Could not find or load main class org.apache.tez.dag.app.DAGAppMaster

问题解决:

重新自己编译tez-0.9.0来解决。
1、下载源码
https://mirrors.tuna.tsinghua.edu.cn/apache/tez/0.9.0/
2、上传源码包并解压
[root@hadoop01 home]# tar -zxvf /home/apache-tez-0.9.0-src.tar.gz
[root@hadoop01 home]# cd ./apache-tez-0.9.0-src
3、修改源码目录下的pom.xml文件hadoop.version属性

[root@hadoop01 apache-tez-0.9.0-src]# vi ./pom.xml
<hadoop.version>2.7.1</hadoop.version>
 
4、编译准备
This assumes that you have already installed JDK8 or later and Maven 3 or later.
Tez also requires Protocol Buffers 2.5.0, including the protoc-compiler.
即是:
JDK8+
Maven 3+
Protocol Buffers 2.5.0

jdk 8+ 和 maven 3+ 的安装省略。
安装Protocol Buffers 2.5.0如下:
下载Protocol Buffers 2.5.0的安装包。
[root@hadoop01 home]# tar -zxvf /home/protobuf-2.5.0.tar.gz
[root@hadoop01 protobuf-2.5.0]# cd ./protobuf-2.5.0
[root@hadoop01 protobuf-2.5.0]# ./configure
[root@hadoop01 protobuf-2.5.0]#  make
[root@hadoop01 protobuf-2.5.0]#  make check
[root@hadoop01 protobuf-2.5.0]#  make install
[root@hadoop01 protobuf-2.5.0]# protoc --version
libprotoc 2.5.0

5、编译tez
[root@hadoop01 apache-tez-0.9.0-src]# mvn clean package -DskipTests=true -Dmaven.javadoc.skip=true


编译问题:
1、Could not download Node.js: Could not download https://nodejs.org/dist/v5.12.0/node-v5.12.0-linux-x64.tar.gz:
解决(在安装目录下手动下载):
[root@hadoop01 apache-tez-0.9.0-src]# wget --no-check-certificate https://nodejs.org/dist/v5.12.0/node-v5.12.0-linux-x64.tar.gz

2、Could not download Yarn: Could not download https://github.com/yarnpkg/yarn/releases/download/v0.21.3/yarn-v0.21.3.tar.gz
解决:
[root@hadoop01 apache-tez-0.9.0-src]# wget --no-check-certificate https://github.com/yarnpkg/yarn/releases/download/v0.21.3/yarn-v0.21.3.tar.gz

wget --no-check-certificate https://registry.yarnpkg.com/em-table/-/em-table-0.7.2.tgz

wget https://nodejs.org/dist/v5.12.0/node-v5.12.0-linux-x64.tar.gz

3、[ERROR] error An unexpected error occurred: "https://registry.yarnpkg.com/em-table/-/em-table-0.7.2.tgz: unable to verify the first certificate".

解决:

[root@hadoop01 home]# tar -zxvf /home/node-v10.14.1-linux-x64.tar.gz -C /usr/local/

[root@hadoop01 home]# vi /etc/profile
内容如下:
export NODE_HOME=/usr/local/node-v10.14.1-linux-x64/
export PATH=$PATH:$NODE_HOME/bin:

[root@hadoop01 apache-tez-0.9.0-src]# source /etc/profile   #刷新环境变量
将npm的地址换成淘宝源
[root@hadoop01 apache-tez-0.9.0-src]# npm config set registry https://registry.npm.taobao.org
[root@hadoop01 apache-tez-0.9.0-src]# npm config set disturl https://npm.taobao.org/dist

4、
[INFO] Running 'bower install' in /home/apache-tez-0.9.0-src/tez-ui/src/main/webapp
[ERROR] bower ESUDO         Cannot be run with sudo
解决:


set hive.execution.engine=mr;
select count(id) from sq1 group by id;
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章