1. 打開PDI,新建一個作業,如圖1所示。
2. 編輯'Oozie job executor'作業項,如圖2所示。
說明:
- CDH631是已經建好的Hadoop集羣連接,參見“https://wxy0327.blog.csdn.net/article/details/106406702#%E4%BA%8C%E3%80%81%E8%BF%9E%E6%8E%A5Hadoop%E9%9B%86%E7%BE%A4”。
- 'Enable Blocking'選項將阻止轉換的其餘部分執行,直到選中Oozie作業完成爲止。
- 'Polling Interval(ms)'設置間檢查Oozie工作流的時間間隔。
- 'Workflow Properties'設置工作流屬性文件。此路徑是必需的,並且必須是有效的作業屬性文件。
/root/big_data/job.properties文件的內容如下:
nameNode=hdfs://manager:8020
jobTracker=manager:8032
queueName=default
oozie.use.system.libpath=true
oozie.wf.application.path=${nameNode}/user/${user.name}
各屬性的含義,以及工作流功能、工作流文件的創建參見“https://blog.csdn.net/wzy0623/article/details/51880687”。DAG如圖3所示。
3. 保存並執行作業,日誌如下所示。
2020/06/09 09:48:43 - Spoon - Starting job...
2020/06/09 09:48:43 - Oozie - Start of job execution
2020/06/09 09:48:43 - Oozie - Starting entry [Oozie job executor]
2020/06/09 09:51:47 - Oozie - Finished job entry [Oozie job executor] (result=[true])
2020/06/09 09:51:47 - Oozie - Job execution finished
2020/06/09 09:51:47 - Spoon - Job has ended.
在Oozie Web Console可以查看工作流執行進度和結果,如圖4所示。