什麼是Oozie？如何使用Oozie？蒟蒻博主帶你快速上手Oozie!

寫在前面： 博主是一名軟件工程系大數據應用開發專業大二的學生，暱稱來源於《愛麗絲夢遊仙境》中的Alice和自己的暱稱。作爲一名互聯網小白，寫博客一方面是爲了記錄自己的學習歷程，一方面是希望能夠幫助到很多和自己一樣處於起步階段的萌新。由於水平有限，博客中難免會有一些錯誤，有紕漏之處懇請各位大佬不吝賜教！個人小站:http://alices.ibilibili.xyz/ , 博客主頁:https://alice.blog.csdn.net/
儘管當前水平可能不及各位大佬，但我還是希望自己能夠做得更好，因爲一天的生活就是一生的縮影。我希望在最美的年華，做最好的自己！

本篇博客，博主爲大家介紹的是Oozie，一種運行在hadoop平臺上的工作流調度引擎。如果看完後有點收穫，不妨給博主一個大大的贊|ू･ω･` )

文章目錄

Oozie

1、簡介

Oozie的組件介紹

4.1 使用oozie調度shell腳本

4.2 使用oozie調度hive

4.3 使用oozie調度MR任務

小結

Oozie

1、簡介

Oozie是運行在hadoop平臺上的一種工作流調度引擎，它可以用來調度與管理hadoop任務，如，MapReduce、Pig等。

Oozie的組件介紹

workFlow：工作流，定義工作流任務的執行，主要由一個個的action組成，每個action都是一個任務，在xml中進行配置即可

Coordinator ：協作器，可以理解爲工作流的協調器，可以將多個工作流協調成一個工作流來進行處理。也是oozie當中的定時任務調度的模塊

Bundle ：捆，束。多個Coordinator 的抽象，可以通過bundle將多個Coordinator 進行組裝集合起來，形成一個bundle

可以發現它們三者之間的關係類似於套娃

如果還是不能給你留下深刻的印象，可以參照下面這個圖，絕對的通俗易懂

2、架構

從oozie的架構圖中，可以看到所有的任務都是通過oozie生成相應的任務客戶端，並通過任務客戶端來提交相應的任務。

3、安裝

因爲Oozie的安裝步驟實在繁瑣，這裏就不詳細演示說明了。想知道具體安裝步驟的朋友，可以自行Google/百度。

如果已經安裝好了Oozie，可以通過web頁面進行查看詳情。

http://bd001:11000/oozie/

看到類似的效果，說明我們的Oozie就安裝成功了。

4、使用

正式開始使用之前，需要申明一點，本次試驗所使用的虛擬機主機名爲bd001，並且是單節點的，所以下面步驟中所需要配置的文件裏的主機名均爲bd001。

如果有跟着操作的朋友，請以自己的集羣的實際情況爲準!

4.1 使用oozie調度shell腳本

oozie安裝好了之後，需要測試oozie的功能是否完整好使，官方已經給我們帶了各種測試案例，我們可以通過官方提供的各種案例來對oozie進行調度。

第一步：解壓官方提供的調度案例

oozie自帶了各種案例，我們可以使用oozie自帶的各種案例來作爲模板，所以我們這裏先把官方提供的各種案例給解壓出來。

cd /export/servers/oozie-4.1.0-cdh5.14.0
tar -zxf oozie-examples.tar.gz

解壓完畢，可以發現examples文件夾就是我們想要的。

第二步：創建工作目錄

在任意地方創建一個oozie的工作目錄，以後調度任務的配置文件全部放到oozie的工作目錄當中去。

這裏直接在oozie的安裝目錄下面創建工作目錄。

cd /export/servers/oozie-4.1.0-cdh5.14.0
mkdir oozie_works

第三步：拷貝任務模板到工作目錄當中去

任務模板以及工作目錄都準備好了之後，我們把shell的任務模板拷貝到我們oozie的工作目錄當中去。

cd /export/servers/oozie-4.1.0-cdh5.14.0
cp -r examples/apps/shell/ oozie_works/

第四步：隨意準備一個shell腳本

cd /export/servers/oozie-4.1.0-cdh5.14.0
vim oozie_works/shell/hello.sh

注意：這個腳本一定要是在我們oozie工作路徑下的shell路徑下的位置

#!/bin/bash
echo "hello world" >> /export/servers/hello_oozie.txt

第五步：修改模板下的配置文件

修改job.properties

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/shell

vim job.properties

nameNode=hdfs://bd001:8020
jobTracker=bd001:8032
queueName=default
examplesRoot=oozie_works
oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/shell
EXEC=hello.sh

修改workflow.xml
vim workflow.xml

<workflow-app xmlns="uri:oozie:workflow:0.4" name="shell-wf">
<start to="shell-node"/>
<action name="shell-node">
    <shell xmlns="uri:oozie:shell-action:0.2">
        <job-tracker>${jobTracker}</job-tracker>
        <name-node>${nameNode}</name-node>
        <configuration>
            <property>
                <name>mapred.job.queue.name</name>
                <value>${queueName}</value>
            </property>
        </configuration>
        <exec>${EXEC}</exec>
        <!-- <argument>my_output=Hello Oozie</argument> -->
        <file>/user/root/oozie_works/shell/${EXEC}#${EXEC}</file>

        <capture-output/>
    </shell>
    <ok to="end"/>
    <error to="fail"/>
</action>
<decision name="check-output">
    <switch>
        <case to="end">
            ${wf:actionData('shell-node')['my_output'] eq 'Hello Oozie'}
        </case>
        <default to="fail-output"/>
    </switch>
</decision>
<kill name="fail">
    <message>Shell action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
</kill>
<kill name="fail-output">
    <message>Incorrect output, expected [Hello Oozie] but was [${wf:actionData('shell-node')['my_output']}]</message>
</kill>
<end name="end"/>
</workflow-app>

第六步：上傳調度任務到hdfs上面去

注意：上傳的hdfs目錄爲/user/root，因爲我們hadoop啓動的時候使用的是root用戶，如果hadoop啓動的是其他用戶，那麼就上傳到/user/其他用戶。

cd /export/servers/oozie-4.1.0-cdh5.14.0
hdfs dfs -put oozie_works/ /user/root

第七步：執行調度任務

通過oozie的命令來執行調度任務

cd /export/servers/oozie-4.1.0-cdh5.14.0
bin/oozie job -oozie http://bd001:11000/oozie -config oozie_works/shell/job.properties  -run

從監控界面可以看到任務執行成功了

查看hadoop的19888端口，我們會發現，oozie啓動了一個MR的任務去執行shell腳本

4.2 使用oozie調度hive

第一步：拷貝hive的案例模板

cd /export/servers/oozie-4.1.0-cdh5.14.0
cp -ra examples/apps/hive2/ oozie_works/

第二步：編輯hive模板

這裏使用的是hiveserver2來進行提交任務，需要注意我們要將hiveserver2的服務給啓動起來

hive --service hiveserver2 &
hive --service metastore  &

修改job.properties

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/hive2
vim job.properties

nameNode=hdfs://bd001:8020
jobTracker=bd001:8032
queueName=default
jdbcURL=jdbc:hive2://bd001:10000/default
examplesRoot=oozie_works

oozie.use.system.libpath=true
# 配置我們文件上傳到hdfs的保存路徑 實際上就是在hdfs 的/user/root/oozie_works/hive2這個路徑下
oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/hive2

修改workflow.xml
vim workflow.xml

<?xml version="1.0" encoding="UTF-8"?>
<workflow-app xmlns="uri:oozie:workflow:0.5" name="hive2-wf">
    <start to="hive2-node"/>

    <action name="hive2-node">
        <hive2 xmlns="uri:oozie:hive2-action:0.1">
            <job-tracker>${jobTracker}</job-tracker>
            <name-node>${nameNode}</name-node>
            <prepare>
                <delete path="${nameNode}/user/${wf:user()}/${examplesRoot}/output-data/hive2"/>
                <mkdir path="${nameNode}/user/${wf:user()}/${examplesRoot}/output-data"/>
            </prepare>
            <configuration>
                <property>
                    <name>mapred.job.queue.name</name>
                    <value>${queueName}</value>
                </property>
            </configuration>
            <jdbc-url>${jdbcURL}</jdbc-url>
            <script>script.q</script>
            <param>INPUT=/user/${wf:user()}/${examplesRoot}/input-data/table</param>
            <param>OUTPUT=/user/${wf:user()}/${examplesRoot}/output-data/hive2</param>
        </hive2>
        <ok to="end"/>
        <error to="fail"/>
    </action>

    <kill name="fail">
        <message>Hive2 (Beeline) action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
    </kill>
    <end name="end"/>
</workflow-app>

編輯hivesql文件
vim script.q

DROP TABLE IF EXISTS test;
CREATE EXTERNAL TABLE default.test (a INT) STORED AS TEXTFILE LOCATION '${INPUT}';
insert into test values(10);
insert into test values(20);
insert into test values(30);

第三步：上傳工作文件到hdfs

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works
hdfs dfs -put hive2/ /user/root/oozie_works/

第四步：執行oozie的調度

cd /export/servers/oozie-4.1.0-cdh5.14.0
bin/oozie job -oozie http://bd001:11000/oozie -config oozie_works/hive2/job.properties  -run

第五步：查看調度結果

4.3 使用oozie調度MR任務

第一步：準備MR執行的數據

我們這裏通過oozie調度一個MR的程序的執行，MR的程序可以是自己寫的，也可以是hadoop工程自帶的，我們這裏就選用hadoop工程自帶的MR程序來運行wordcount的示例。

準備以下數據上傳到HDFS的/oozie/input路徑下去。

hdfs dfs -mkdir -p /oozie/input
vim wordcount.txt

hello   world   hadoop
spark   hive    hadoop

將數據上傳到hdfs對應目錄

hdfs dfs -put wordcount.txt /oozie/input

第二步：執行官方測試案例

hadoop jar /export/servers/hadoop-2.6.0-cdh5.14.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.14.0.jar   wordcount  /oozie/input/  /oozie/output

第三步：準備調度的資源

將需要調度的資源都準備好放到一個文件夾下面去，包括jar包，job.properties，以及workflow.xml。

拷貝MR的任務模板

cd /export/servers/oozie-4.1.0-cdh5.14.0
cp -ra examples/apps/map-reduce/   oozie_works/

刪掉MR任務模板lib目錄下自帶的jar包

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/map-reduce/lib
rm -rf oozie-examples-4.1.0-cdh5.14.0.jar

第三步：拷貝的jar包到對應目錄

從上一步的刪除當中，可以看到需要調度的jar包存放在了
/export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/map-reduce/lib這個目錄下，所以我們把我們需要調度的jar包也放到這個路徑下即可

cp /export/servers/hadoop-2.6.0-cdh5.14.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.14.0.jar /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/map-reduce/lib/

第四步：修改配置文件

修改job.properties
cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/map-reduce

vim job.properties

nameNode=hdfs://bd001:8020
jobTracker=bd001:8032
queueName=default
examplesRoot=oozie_works

oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/map-reduce/workflow.xml
outputDir=/oozie/output
inputdir=/oozie/input

修改workflow.xml

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works/map-reduce
vim workflow.xml

<?xml version="1.0" encoding="UTF-8"?>
<!--
  Licensed to the Apache Software Foundation (ASF) under one
  or more contributor license agreements.  See the NOTICE file
  distributed with this work for additional information
  regarding copyright ownership.  The ASF licenses this file
  to you under the Apache License, Version 2.0 (the
  "License"); you may not use this file except in compliance
  with the License.  You may obtain a copy of the License at
  
       http://www.apache.org/licenses/LICENSE-2.0
  
  Unless required by applicable law or agreed to in writing, software
  distributed under the License is distributed on an "AS IS" BASIS,
  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  See the License for the specific language governing permissions and
  limitations under the License.
-->
<workflow-app xmlns="uri:oozie:workflow:0.5" name="map-reduce-wf">
    <start to="mr-node"/>
    <action name="mr-node">
        <map-reduce>
            <job-tracker>${jobTracker}</job-tracker>
            <name-node>${nameNode}</name-node>
            <prepare>
                <delete path="${nameNode}/${outputDir}"/>
            </prepare>
            <configuration>
                <property>
                    <name>mapred.job.queue.name</name>
                    <value>${queueName}</value>
                </property>
				<!--  
                <property>
                    <name>mapred.mapper.class</name>
                    <value>org.apache.oozie.example.SampleMapper</value>
                </property>
                <property>
                    <name>mapred.reducer.class</name>
                    <value>org.apache.oozie.example.SampleReducer</value>
                </property>
                <property>
                    <name>mapred.map.tasks</name>
                    <value>1</value>
                </property>
                <property>
                    <name>mapred.input.dir</name>
                    <value>/user/${wf:user()}/${examplesRoot}/input-data/text</value>
                </property>
                <property>
                    <name>mapred.output.dir</name>
                    <value>/user/${wf:user()}/${examplesRoot}/output-data/${outputDir}</value>
                </property>
				-->
				
				   <!-- 開啓使用新的API來進行配置 -->
                <property>
                    <name>mapred.mapper.new-api</name>
                    <value>true</value>
                </property>

                <property>
                    <name>mapred.reducer.new-api</name>
                    <value>true</value>
                </property>

                <!-- 指定MR的輸出key的類型 -->
                <property>
                    <name>mapreduce.job.output.key.class</name>
                    <value>org.apache.hadoop.io.Text</value>
                </property>

                <!-- 指定MR的輸出的value的類型-->
                <property>
                    <name>mapreduce.job.output.value.class</name>
                    <value>org.apache.hadoop.io.IntWritable</value>
                </property>

                <!-- 指定輸入路徑 -->
                <property>
                    <name>mapred.input.dir</name>
                    <value>${nameNode}/${inputdir}</value>
                </property>

                <!-- 指定輸出路徑 -->
                <property>
                    <name>mapred.output.dir</name>
                    <value>${nameNode}/${outputDir}</value>
                </property>

                <!-- 指定執行的map類 -->
                <property>
                    <name>mapreduce.job.map.class</name>
                    <value>org.apache.hadoop.examples.WordCount$TokenizerMapper</value>
                </property>

                <!-- 指定執行的reduce類 -->
                <property>
                    <name>mapreduce.job.reduce.class</name>
                    <value>org.apache.hadoop.examples.WordCount$IntSumReducer</value>
                </property>
				<!--  配置map task的個數 -->
                <property>
                    <name>mapred.map.tasks</name>
                    <value>1</value>
                </property>

            </configuration>
        </map-reduce>
        <ok to="end"/>
        <error to="fail"/>
    </action>
    <kill name="fail">
        <message>Map/Reduce failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
    </kill>
    <end name="end"/>
</workflow-app>

第五步：上傳調度任務到hdfs對應目錄

cd /export/servers/oozie-4.1.0-cdh5.14.0/oozie_works
hdfs dfs -put map-reduce/ /user/root/oozie_works/

第六步：執行調度任務

執行調度任務，然後通過oozie的11000端口進行查看任務結果

cd /export/servers/oozie-4.1.0-cdh5.14.0
bin/oozie job -oozie http://bd001:11000/oozie -config oozie_works/map-reduce/job.properties -run

查看集羣上輸出文件的內容

小結

本篇博客主要爲大家帶來了Oozie的簡介，架構，以及基本操作的分享。感興趣的朋友可以有空多多練習，有任何疑問可以隨時後臺聯系博主喲(＾Ｕ＾)ノ~ＹＯ

如果以上過程中出現了任何的紕漏錯誤，煩請大佬們指正😅

受益的朋友或對大數據技術感興趣的夥伴記得點贊關注支持一波🙏