本文介绍Kettle 8.3中数据库分区的使用。

1. 在数据库连接中使用集群

在Kettle的数据库连接对话框中，可定义数据库分区，如图1所示。

在“集群”标签，勾选“使用集群”，然后定义三个分区。这里的分区实际指的是数据库实例，需要指定自定义的分区ID，数据库实例的主机名（IP）、端口、数据库名、用户名和密码。定义分区的目的是为了从某一个分区甚至某一个物理数据库读取和写入数据。一旦在数据库连接里面定义了数据库分区，就可以基于这个信息创建了一个分区schema。

在“一般”标签，只要指定连接名称、连接类型和连接方式，在“设置”中都可以为空，如图2所示。Kettle假定所有的分区都是同一数据库类型和连接类型。

定义好分区后点击“测试”，结果如图3所示。

2. 创建数据库分区schemas

在“主对象树”的“数据库分区schemas”上点右键“新建”，在弹出窗口中输入“分区schema名称”，然后点击“导入分区”按钮，如图4所示。

选择上一步定义的数据库连接 mysql_only_shared，点“确定”按钮后，如图5所示。

此时已经导入了上一步定义的三个数据库分区。点击“OK”保存。这样就定义了一个名为shared_source的数据库分区schema。再用同样的方法定义一个名为shared_target的数据库分区schema，所含分区也从mysql_only_shared导入。

至此，我们已经定义了一个包含三个分区的数据库连接，并将分区信息导入到两个数据库分区schema，如图6所示。

现在可以在任何步骤里面应用这两个数据库分区schema（就是说使用这个分区的数据库连接）。Kettle将为每个数据库分区产生一个步骤复制，并且它将连接物理数据库。

3. 启用数据库分区

点击步骤右键，选择“分区...”菜单项，如图7所示。

此时会弹出一个对话框，选择使用哪个分区方法，如图8所示。

分区方法可以是下面的一种：

None：不使用分区，标准的“Distribute rows”（轮询）或“Copy rows”（复制）规则被应用。
Mirror to all partitions：使用已定义的数据库分区schema中的所有分区。
Remainder of division：Kettle标准的分区方法。通过分区编号除以分区数目，产生的余数被用来决定记录行将发往哪个分区。例如在一个记录行里，如果有 “73” 标识的用户身份，而且有3个分区定义，这样这个记录行属于分区1，编号30属于分区0，编号14属于分区2。需要指定基于分区的字段

选择“Mirror to all partitions”，在弹出窗口中选择已定义的分区schema，如图9所示。

经此一番设置后，该步骤就将以分区方式执行，如图10所示。

4. 例子

（1）将三个mysql实例的数据导入到另一个mysql实例

转换如图11所示。

表输入步骤如图12所示。

该步骤虽然连接的是mysql_only_shared。因为是按分区方式执行，实际读取的是三个分区的数据。三个分区的t1表数据如图13所示。

表输出步骤连接的是172.16.1.105的test.t4表，如图14所示。

该转换执行的逻辑为：
db1.t1 + db2.t1 + db3.t1 -> db4.t4

转换执行后，172.16.1.105的test.t4表数据如图15所示。

如果将图12中的数据库连接改为mysql_172.16.1.105，连接172.16.1.105的test.t1表。mysql_172.16.1.105本身没有设置“使用集群”，则转换将从172.16.1.105取数据，但依然为每个分区复制一份步骤，其结果等同于3线程的复制分发。转换执行后，172.16.1.105的test.t4表数据如图16所示。