Kettle可以与Hadoop协同工作。让我们从简单的开始，本文介绍如何配置Kettle访问Hadoop集群（HDFS、MapReduce、Zookeeper、Oozie等），以及Hive、Impala等数据库组件。所有操作都以操作系统的root用户执行。

一、环境说明

1. Hadoop

已经安装好4个节点的CDH 6.3.1，IP地址及主机名如下：
172.16.1.124 manager
172.16.1.125 node1
172.16.1.126 node2
172.16.1.127 node3

启动的Hadoop服务如图1所示，所有服务都使用缺省端口。

2. Kettle

已经在172.16.1.105安装好PDI 8.3，安装目录为/root/data-integration。为了用主机名访问Hadoop相关服务，在Kettle主机的/etc/hosts文件中添加了如下内容：

172.16.1.124 manager
172.16.1.125 node1
172.16.1.126 node2
172.16.1.127 node3

二、连接Hadoop集群

1. 在Kettle中配置Hadoop客户端文件

（1）在浏览器中登录Cloudera Manager，选择hive服务，点击“操作”->“下载客户端配置”。得到如图2的文件。

（2）将上一步得到的Hadoop客户端配置文件复制到Kettle的~/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh61/目录下，覆盖原来自带的core-site.xml、hdfs-site.xml、hive-site.xml、yarn-site.xml、mapred-site.xml 5个文件。

2. 启动spoon

/root/data-integration/spoon.sh

3. 在spoon中选择Hadoop种类

选择主菜单“Tools” -> “Hadoop Distribution...”，在对话框中选择“Cloudera CDH 6.1.0”，如图3所示。

4. 重启spoon

5. 在Spoon创建Hadoop clusters对象
（1）新建转换
主菜单 File -> New -> Transformation

（2）新建Hadoop集群对象
在工作区左侧的树的View标签中，选择 Hadoop clusters -> 右键New Cluster，对话框中输入如图4所示的属性值。然后点击“Test”按钮，结果如图5所示。除了Kafka因没有在CDH中启动服务导致连接失败以外，其它均通过测试。最后点击“OK”保存Hadoop集群对象。

三、连接Hive

1. 新建数据库连接对象
在工作区左侧的树的View标签中，选择 Database Connections -> 右键New，对话框中输入如图6所示的属性值。

点击“Test”按钮，连接Hive成功如图7所示。

然后点击“OK”保存数据库连接对象。

2. 共享数据库连接对象
为其它转换或作业能够使用数据库连接对象，需要将它设置为共享。选择 Database Connections -> hive_cdh631 -> 右键Share，然后保存转换。

四、连接Impala

1. 新建数据库连接对象
在工作区左侧的树的View标签中，选择 Database Connections -> 右键New，对话框中输入如图8所示的属性值。

点击“Test”按钮，连接Impala成功如图9所示。

然后点击“OK”保存数据库连接对象。

2. 共享数据库连接对象
为其它转换或作业能够使用数据库连接对象，需要将它设置为共享。选择 Database Connections -> impala_cdh631 -> 右键Share，然后保存转换。

五、后续（建立MySQL数据库连接）

为了给后面创建的转换或作业使用，我们再定义一个普通的mysql数据库连接对象。

1. 拷贝MySQL驱动jar文件
这里使用的是MySQL 5.6.14版本，需要将相应的驱动程序文件拷贝到Kettle安装目录的lib目录下。

cp mysql-connector-java-5.1.38-bin.jar /root/data-integration/lib

之后重启Spoon加载新增的驱动程序。

2. 新建数据库连接对象
在工作区左侧的树的View标签中，选择 Database Connections -> 右键New，对话框中输入如图10所示的属性值。

点击“Test”按钮，连接MySQL成功如图11所示。

然后点击“OK”保存数据库连接对象。

3. 共享数据库连接对象
为其它转换或作业能够使用数据库连接对象，需要将它设置为共享。选择 Database Connections -> mysql_node3 -> 右键Share，然后保存转换。

至此已经创建了一个Hadoop集群对象和三个数据库连接对象，如图12所示。

后面将在这些对象上进行一系列Kettle读写Hadoop组件的实验。

参考：Use Hadoop with Pentaho

Kettle与Hadoop（三）连接Hadoop

一、环境说明

二、连接Hadoop集群

三、连接Hive

四、连接Impala

五、后续（建立MySQL数据库连接）

参考：Use Hadoop with Pentaho

SQL优化-20231016

Galera Cluster for MySQL 詳解（五）——負載均衡

定期全備redis

重疊時間段問題優化算法詳解

CDH 6.3.1整合Zeppelin 0.8.2

redis手工分片

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結