文章目錄
1 tez的概覽
環境介紹:hive 1.2.1 hadoop 2.7.1 tez 0.9.0(hadoop2.6不兼容)
1.1 tez介紹
1.1.1 介紹
tez是一個apache的開源項目,意在構建一個應用框架,能通過複雜任務的DAG來處理數據。它是基於當前的hadoop yarn之上,換句話就是yarn爲其提供資源。
tez主要的兩個設計目標:
增強終端用戶使用:
靈活的數據流定義API
靈活的輸入輸出運行時模型(強調處理模型)
數據類型無關
簡潔部署
高性能執行:
通過mapreduce提高性能
資源優化管理
執行時計劃重定義
物理數據流的動態決策
tez可以像Apache Hive和Apache Pig這樣的項目運行復雜的任務DAG,Tez可以用於處理數據,早期使用了多個MR作業,現在在單個Tez作業中,如下所示:
注:
天藍色方塊爲map,綠色方塊爲reduce,雲狀的爲輸出隱藏,綠色的圓圈爲一個mr。
參考官網:http://tez.apache.org/
2 tez的安裝
2.1 tez下載
tez提供咯二進制包和源碼包,二者官網下載路徑:
https://mirrors.tuna.tsinghua.edu.cn/apache/tez/0.9.0/
注:
官方提供咯源碼包和二進制包,我這兒就不在下載源碼來編譯,而是直接使用其二進制包來安裝。二進制包需要考慮與hadoop版本的兼容問題。
2.2 tez源碼編譯
暫時不下載源碼包來編譯,費時,可以自行參考官網編譯。參考官網編譯地址:
http://tez.apache.org/install.html
2.3 tez的安裝
2.3.1 解壓並配置環境
解壓重命名:
[root@hadoop01 ~]# tar -zxvf /home/apache-tez-0.9.0-bin.tar.gz -C /usr/local/
[root@hadoop01 ~]# mv /usr/local/apache-tez-0.9.0-bin/ /usr/local/tez-0.9.0/
上傳tez.tar.gz到hdfs中一個目錄中:
[root@hadoop01 tez-0.9.0]# hdfs dfs -mkdir /tez-0.9.0
[root@hadoop01 tez-0.9.0]# hdfs dfs -put /usr/local/tez-0.9.0/share/tez.tar.gz /tez-0.9.0
配置環境:
[root@hadoop01 ~]# vi /etc/profile
增加內容如下圖:
然後保存退出,驗證環境變量即可。
[root@hadoop01 ~]# source /etc/profile
2.3.2 配置配置文件
在hadoop的配置目錄下創建tez-site.xml配置文件,內容如下:
[root@hadoop01 tez-0.9.0]# vi /usr/local/hadoop-2.7.1/etc/hadoop/tez-site.xml
文件中添加如下內容:
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
<property>
<name>tez.lib.uris</name>
<value>${fs.defaultFS}/tez-0.9.0/tez.tar.gz</value>
</property>
<property>
<name>tez.container.max.java.heap.fraction</name>
<value>0.2</value>
</property>
</configuration>
更多配置參考默認配置:/usr/local/tez-0.9.0/conf/tez-default-template.xml
2.4 tez、hadoop、hive整合
2.4.1 tez和hadoop的兼容
tez下的lib目錄中的hadoop包的版本和真實安裝的hadoop版本不一致,需要將其jar包換成一致.
刪除不符合版本的jar:
[root@hadoop01 tez-0.9.0]# rm -rf ./lib/hadoop-mapreduce-client-core-2.7.0.jar ./lib/hadoop-mapreduce-client-common-2.7.0.jar
重新再hadoop目錄中拷貝:
[root@hadoop01 tez-0.9.0]# cp /usr/local/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-client-common-2.7.1.jar /usr/local/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.7.1.jar /usr/local/tez-0.9.0/lib/
然後啓動hadoop和hive。
2.4.2 tez和hive結合
如果要將hive的執行引擎更換成tez,則只需要設置執行引擎即可。
set hive.execution.engine=tez;
注意:
1、jar包衝突問題。
2、tez引擎不能使用,需要測試判斷。
3 tez案例
3.1 tez執行
創建表:
create table if not exists tz(
id int,
age int
)
row format delimited fields terminated by '\t'
;
create table if not exists tz_par(
age int,
age_cnt int
)
partitioned by(dt string)
row format delimited fields terminated by '\t'
;
數據:
vi /home/tz
zs 16
ls 18
ww 18
goudan 18
mazi 16
加載數據:
load data local inpath "/home/tz" into table tz;
執行查詢:
insert into tz_par partition(dt="2019-08-12")
select
age,
count(*)
from tz
group by age
;
執行狀態和查看結果,如下圖:
3.2 還原mr執行
一般情況下,除非整個項目以tez執行,如果僅僅是一部分,則需要兩個執行引擎隨時切換。
創建表:
create table if not exists tz_par1(
age int,
age_cnt int
)
partitioned by(dt string)
row format delimited fields terminated by '\t'
;
執行查詢:
set hive.execution.engine=mr;
insert into tz_par1 partition(dt="2019-08-12")
select
age,
count(*)
from tz
group by age
;
查看執進度和結果如下:
到此爲止,證明我們的語句真的可以使用tez引擎來計算咯。
4 tez優化
一、AM、Container大小設置
1、tez.am.resource.memory.mb #設置 tez AM容器內存
默認值:1024
配置文件:tez-site.xml
建議:不小於或者等於yarn.scheduler.minimum-allocation-mb值。
2、hive.tez.container.size #設置 tez container內存
默認值:-1
默認情況下,Tez將生成一個mapper大小的容器。這可以用來覆蓋默認值。
配置文件:hive-site-xml
建議:不小於或者是yarn.scheduler.minimum-allocation-mb的倍數
二、AM、Container JVM參數設置
1、tez.am.launch.cmd-opts #設置 AM jvm,啓動TEZ任務進程期間提供的命令行選項。
默認值:-XX:+PrintGCDetails -verbose:gc -XX:+PrintGCTimeStamps -XX:+UseNUMA -XX:+UseParallelGC(用於GC),默認的大小:80%*tez.am.resource.memory.mb
配置文件:tez-site.xml
建議:不要在這些啓動選項中設置任何xmx或xms,以便tez可以自動確定它們。
2、hive.tez.java.ops #設置 container jvm
默認值:Hortonworks建議“–server –Djava.net.preferIPv4Stack=true–XX:NewRatio=8 –XX:+UseNUMA –XX:UseG1G”,默認大小:80%*hive.tez.container.size
說明:在hive 2.x的官方文檔中沒有找到這個參數。看有些博客裏面有這個值。
配置文件:hive-site.xml
3、tez.container.max.java.heap.fraction #設置task/AM佔用jvm內存大小的比例。
默認值:0.8
配置文件:tez-site.xml
說明:這個值按具體需要調整,當內存不足時,一般都要調小。
三、Hive內存Map Join參數設置
1、tez.runtime.io.sort.mb #設置輸出排序內存大小
默認值:100
配置文件:tez-site.xml
建議:40%*hive.tez.container.size,一般不超過2G
2、hive.auto.convert.join.noconditionaltask #是否將多個mapjoin合併爲一個
默認值:true
建議使用默認值。
配置文件:hive-site.xml
3、hive.auto.convert.join.noconditionaltask.size
默認值:10000000 (10M)
說明:這個參數使用的前提是hive.auto.convert.join.noconditionaltask值爲true,多個mapjoin轉換爲1個時,所有小表的文件大小總和小於這個值,這個值只是限制輸入的表文件的大小,並不代表實際mapjoin時hashtable的大小。 建議值:1/3* hive.tez.container.size
配置文件:hive-site.xml
4、tez.runtime.unordered.output.buffer.size-mb #如果不直接寫入磁盤,使用的緩衝區大小
默認值:100M
建議:10%* hive.tez.container.size
配置文件:tez-site.xml
5、tez.am.container.reuse.enabled #容器重用
默認值:true
配置文件:tez-ste.xml
參考網址:https://www.cnblogs.com/yjt1993/p/11050791.html
5 更新tez
環境變更:hive 2.3.6 hadoop 2.7.1 tez 0.9.0
問題:
二進制包需要考慮與hadoop版本的兼容問題。
容易報錯爲:
hive> set hive.execution.engine=tez;
hive> select count(id) from sq1 group by id;
Query ID = root_20190926004448_205c4f24-e8a2-4c7c-b581-c705b62763ef
Total jobs = 1
Launching Job 1 out of 1
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask
查看歷史服務中的具體錯誤爲:
Error: Could not find or load main class org.apache.tez.dag.app.DAGAppMaster
問題解決:
重新自己編譯tez-0.9.0來解決。
1、下載源碼
https://mirrors.tuna.tsinghua.edu.cn/apache/tez/0.9.0/
2、上傳源碼包並解壓
[root@hadoop01 home]# tar -zxvf /home/apache-tez-0.9.0-src.tar.gz
[root@hadoop01 home]# cd ./apache-tez-0.9.0-src
3、修改源碼目錄下的pom.xml文件hadoop.version屬性
[root@hadoop01 apache-tez-0.9.0-src]# vi ./pom.xml
<hadoop.version>2.7.1</hadoop.version>
4、編譯準備
This assumes that you have already installed JDK8 or later and Maven 3 or later.
Tez also requires Protocol Buffers 2.5.0, including the protoc-compiler.
即是:
JDK8+
Maven 3+
Protocol Buffers 2.5.0
jdk 8+ 和 maven 3+ 的安裝省略。
安裝Protocol Buffers 2.5.0如下:
下載Protocol Buffers 2.5.0的安裝包。
[root@hadoop01 home]# tar -zxvf /home/protobuf-2.5.0.tar.gz
[root@hadoop01 protobuf-2.5.0]# cd ./protobuf-2.5.0
[root@hadoop01 protobuf-2.5.0]# ./configure
[root@hadoop01 protobuf-2.5.0]# make
[root@hadoop01 protobuf-2.5.0]# make check
[root@hadoop01 protobuf-2.5.0]# make install
[root@hadoop01 protobuf-2.5.0]# protoc --version
libprotoc 2.5.0
5、編譯tez
[root@hadoop01 apache-tez-0.9.0-src]# mvn clean package -DskipTests=true -Dmaven.javadoc.skip=true
編譯問題:
1、Could not download Node.js: Could not download https://nodejs.org/dist/v5.12.0/node-v5.12.0-linux-x64.tar.gz:
解決(在安裝目錄下手動下載):
[root@hadoop01 apache-tez-0.9.0-src]# wget --no-check-certificate https://nodejs.org/dist/v5.12.0/node-v5.12.0-linux-x64.tar.gz
2、Could not download Yarn: Could not download https://github.com/yarnpkg/yarn/releases/download/v0.21.3/yarn-v0.21.3.tar.gz
解決:
[root@hadoop01 apache-tez-0.9.0-src]# wget --no-check-certificate https://github.com/yarnpkg/yarn/releases/download/v0.21.3/yarn-v0.21.3.tar.gz
wget --no-check-certificate https://registry.yarnpkg.com/em-table/-/em-table-0.7.2.tgz
wget https://nodejs.org/dist/v5.12.0/node-v5.12.0-linux-x64.tar.gz
3、[ERROR] error An unexpected error occurred: "https://registry.yarnpkg.com/em-table/-/em-table-0.7.2.tgz: unable to verify the first certificate".
解決:
[root@hadoop01 home]# tar -zxvf /home/node-v10.14.1-linux-x64.tar.gz -C /usr/local/
[root@hadoop01 home]# vi /etc/profile
內容如下:
export NODE_HOME=/usr/local/node-v10.14.1-linux-x64/
export PATH=$PATH:$NODE_HOME/bin:
[root@hadoop01 apache-tez-0.9.0-src]# source /etc/profile #刷新環境變量
將npm的地址換成淘寶源
[root@hadoop01 apache-tez-0.9.0-src]# npm config set registry https://registry.npm.taobao.org
[root@hadoop01 apache-tez-0.9.0-src]# npm config set disturl https://npm.taobao.org/dist
4、
[INFO] Running 'bower install' in /home/apache-tez-0.9.0-src/tez-ui/src/main/webapp
[ERROR] bower ESUDO Cannot be run with sudo
解決:
set hive.execution.engine=mr;
select count(id) from sq1 group by id;