1. 打开PDI,新建一个作业,如图1所示。
2. 编辑'Oozie job executor'作业项,如图2所示。
说明:
- CDH631是已经建好的Hadoop集群连接,参见“https://wxy0327.blog.csdn.net/article/details/106406702#%E4%BA%8C%E3%80%81%E8%BF%9E%E6%8E%A5Hadoop%E9%9B%86%E7%BE%A4”。
- 'Enable Blocking'选项将阻止转换的其余部分执行,直到选中Oozie作业完成为止。
- 'Polling Interval(ms)'设置间检查Oozie工作流的时间间隔。
- 'Workflow Properties'设置工作流属性文件。此路径是必需的,并且必须是有效的作业属性文件。
/root/big_data/job.properties文件的内容如下:
nameNode=hdfs://manager:8020
jobTracker=manager:8032
queueName=default
oozie.use.system.libpath=true
oozie.wf.application.path=${nameNode}/user/${user.name}
各属性的含义,以及工作流功能、工作流文件的创建参见“https://blog.csdn.net/wzy0623/article/details/51880687”。DAG如图3所示。
3. 保存并执行作业,日志如下所示。
2020/06/09 09:48:43 - Spoon - Starting job...
2020/06/09 09:48:43 - Oozie - Start of job execution
2020/06/09 09:48:43 - Oozie - Starting entry [Oozie job executor]
2020/06/09 09:51:47 - Oozie - Finished job entry [Oozie job executor] (result=[true])
2020/06/09 09:51:47 - Oozie - Job execution finished
2020/06/09 09:51:47 - Spoon - Job has ended.
在Oozie Web Console可以查看工作流执行进度和结果,如图4所示。