系统同步数据方案（ETL的Kettle）

原創

肥仔哥哥1930

2020-05-14 19:10

一、工具准备

Kettle下载。这个软件虽然是开源的，但是资源非常少，国内下载速度也慢。之前是先下载的8.1版本，今天下载的最新版本9.0。以下验证是在8.1版本上面验证的。

二、简单使用与可行性验证

转换

转换使用主要是验证了数据库表的输入、输出，实现数据转存。

设置变量

2.作业

设计了一个增量插入同步的作业，异常发送邮件。

三、详细设置

设计思路：

在id角标记录表取上次已经同步到的id，从正式表筛选此id之后的数据输出到临时表，然后再由临时表同步到目标数据库的表，同步完成后在id角标记录表插入已经同步到的id记录。

这个根据id值增量插入同步的作业依赖3个转换，这里我就按照设计顺序，截取每个点的配置图让大家看明白。

START：

建id角标标初始角标数据：

转换设置id角标到变量：

它包含的转换配置截图：

删除转储临时表上次的转储数据：

正式通行数据到临时通行数据：

它包含的转换的配置如下：

如果字段不一致，就执行输入字段映射。

临时通行数据到目标通行数据：

它包含的转换配置如下：

字段不一致，可以自行输入字段映射。

插入数据同步id角标记录：

发送邮件：

这里我设置了带附件，不过邮件里并没有发现带附件，有这块的需求可以进一步研究。

成功：

这个节点没有任何配置

最后说下各节点之间的连线，光标放在线上点击右键有相关属性设置。线上的勾/叉也是可以点击的，分别表示条件真假。

四、测试效果

日志的级别很多，有一个非常详细，在测试自己写的这个作业的时候，可以看。

作业度量，每一个节点执行的结果也很清楚。

另外，作业链路上每一个执行通过的节点都会打钩，没有通过报错的就会是叉。

收到的邮件：

邮件配置，还是可以设置的很详细的，可以自己测试。

五、总结

使用kettle数据库增量同步可行
多表数据同步，需要多个作业运行，数据量大的情况，数据库的压力需要考虑
查看了门禁业务系统的数据表，表字段id是字符串，有数字也有uuid不适合做增量数据筛选，但是有更新时间字段，可以使用更新时间作为增量筛选条件。（现在大家明白为啥会要求表有更新时间字段，同时更新要设置时间值了吧？方便别人也方便自己）
同步出现异常的补偿机制需要制定，提前预估规避风险

5、软件开源，新版本资料偏少，老版本功能不够，后期维护需要考虑（感觉维护成本比代码方式高）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

一场数据架构变革正在来临

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-12-21 10:54:01

解读数字化转型下的数据安全：AI正在开辟新的可能性

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-19 14:03:54

云原生数据库企业Cockroach Labs再获 2.73 亿美元融资，估值高达50亿美元

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-16 15:18:50

数千个数据库、遍布全国的物理机，京东物流全量上云实录 | 卓越技术团队访谈录

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":1}},{"type":"blockquote","content":[{"type":"pa

2021-12-16 10:38:55

前车之鉴：聊聊我在基础设施中掉过的坑

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-14 13:33:55

洞察数据库变革趋势，亚马逊云科技正在凭借这项技术改变着游戏规则

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-10 16:53:54

对话阿里云田涛涛：企业如何用好云、管好云？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-13 17:43:53

用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本

在實際項目中，從Kafka到HDFS的數據是每天自動生成一個文件，按日期區分。而且Kafka在不斷生產數據，因此看看kettle是不是需要時刻運行？能不能按照每日自動生成數據文件？爲了測試實際項目中的海豚定時調度從Kafka到HDFS的K

2024-04-15 21:18:44

在kettle spoon中使用java代码操作excel文档

一、從excel中讀取數據二、重命名excel中的列名，作爲後續輸出字段名使用添加“字段選擇”模塊，並編輯三、新增Excel中沒有的列名，作爲後續輸出字段使用四、添加“Java代碼”對

2023-07-04 14:07:52

编译 kettle用的settings.xml

<?xml version="1.0" encoding="UTF-8"?> <settings xmlns="http://maven.apache.org/SETTINGS/1.0.0" xmlns:xsi="http://ww

2023-01-30 10:06:57

使用JAVA代码执行kettle作业

1.通過文件方式執行轉換。 public static void runTransfer(String[] params, String ktrPath) { Trans trans = null;

2022-04-30 10:34:58

使用Janino执行java脚本

<dependency> <groupId>org.codehaus.janino</groupId> <artifactId>janino</artifactId> <version>3.0.8</vers

2022-04-30 10:34:57

DolphinScheduler 调度 DataX 实现 MySQL To ElasticSearch 增量数据同步实践

數據同步的方式數據同步的2大方式基於SQL查詢的 CDC(Change Data Capture)：離線調度查詢作業，批處理。把一張表同步到其他系統，每次通過查詢去獲取表中最新的數據。也就是我們說的基於SQL查詢抽取；無法保障

2022-04-30 05:58:59

Kettle将上一步查询或解析出来的值作为下一步要执行的条件

1、在覈心對象 -> 轉換 -> 字段選擇，選擇字段選擇後，編輯字段選擇，其中字段名稱即爲傳入下一步的條件，注意：該字段名稱順序會影響下一步的條件 2、“？” 號代表上一步傳入的條件，第一個“？” 代表上一步第一個字段名稱，第二個“？

2021-12-25 21:34:49

KETTLE连接Oracle数据库，填写连接信息格式

KETTLE連接Oracle數據庫，填寫連接信息格式 1.1填寫連接信息默認一般連接，【連接類型】：Oracle 【連接方式】：Native(JDBC) 【連接名稱】：用於描述連接，自行定義【主機名稱】：IP地址 (連接本地Oracl

2021-12-25 21:34:47

24小時熱門文章

最新文章

最新評論文章