ETL利器Kettle實戰應用解析系列二 【應用場景和實戰DEMO下載】

ETL利器Kettle實戰應用解析系列二 【應用場景和實戰DEMO下載】

本系列文章主要索引如下:

一、ETL利器Kettle實戰應用解析系列一【Kettle使用介紹】

二、ETL利器Kettle實戰應用解析系列二 【應用場景和實戰DEMO下載】

三、ETL利器Kettle實戰應用解析系列三 【ETL後臺進程執行配置方式】

本文主要閱讀目錄如下:

1、應用場景

2、DEMO實戰

3、DEMO下載

 

1、應用場景

這裏簡單概括一下幾種具體的應用場景,按網絡環境劃分主要包括:

  • 表視圖模式:這種情況我們經常遇到,就是在同一網絡環境下,我們對各種數據源的表數據進行抽取、過濾、清洗等,例如歷史數據同步、異構系統數據交互、數據對稱發佈或備份等都歸屬於這個模式;傳統的實現方式一般都要進行研發(一小部分例如兩個相同表結構的表之間的數據同步,如果sqlserver數據庫可以通過發佈/訂閱實現),涉及到一些複雜的一些業務邏輯如果我們研發出來還容易出各種bug;

  • 前置機模式:這是一種典型的數據交換應用場景,數據交換的雙方A和B網絡不通,但是A和B都可以和前置機C連接,一般的情況是雙方約定好前置機的數據結構,這個結構跟A和B的數據結構基本上是不一致的,這樣我們就需要把應用上的數據按照數據標準推送到前置機上,這個研發工作量還是比較大的;

  • 文件模式: 數據交互的雙方A和B是完全的物理隔離,這樣就只能通過以文件的方式來進行數據交互了,例如XML格式,在應用A中我們開發一個接口用來生成標準格式的XML,然後用優盤或者別的介質在某一時間把XML數據拷貝之後,然後接入到應用B上,應用B上在按照標準接口解析相應的文件把數據接收過來;

綜上3種模式如果我們都用傳統的模式無疑工作量是巨大的,那麼怎麼做才能更高效更節省時間又不容易出錯呢?答案是我們可以用一下Kettle-_-!

2、DEMO實戰

2、1 實例1:數據庫TestA中的UserA表到數據庫TestB的UserB表

1)爲方便演示,我這邊把Sql腳本貼出來,大家直接複製在sqlserver中運行即可,sql腳本如下:

簡單表之間交換

 

2)Kettle實現方式

功能簡述:數據庫TestA中的UserA表到數據庫TestB的UserB表;

實現流程:建立一個轉換和一個作業Job;

A:建立一個轉換:打開Kettle.exe,選擇沒有資源庫,進入主界面,新建一個轉換,轉換的後綴名爲ktr,轉換建立的步驟如下:

步驟1:創建DB連接,選擇新建DB連接,如下圖,我們輸入相應的Sqlserver配置信息之後點擊Test按鈕測試是否配置正確!

我們需要建立兩個DB連接,分別爲TestA和TestB;

步驟2:建立步驟和步驟關係,點擊核心對象,我們從步驟樹中選擇【表輸入】,如下圖,這樣拖拽一個表輸入之後,我們雙擊表輸入之後,我們自己可以隨意寫一個sql語句,這個語句表示可以在這個庫中隨意組合,只要sql語句沒有錯誤即可,我這裏只是最簡單的把TestA中的所有數據查出來,語句爲select * from usersA。

接下來我們創建另外一個步驟【插入/ 更新】,然後在【表輸入】上同時按住shift鍵和鼠標左鍵滑向【插入/ 更新】,這樣建立兩個步驟之間的連接,【插入/ 更新】執行的邏輯是如果UserA表中的記錄在UserB中不存在那麼就插入,如果存在就更新,如下圖,在插入更新中我們可以做一些關鍵條件和字段映射,這裏我們是最簡單的!點擊保存,把我們建立的轉換保存一下。

建立好轉換之後,我們可以直接運行這個轉換,檢查一下是否有錯,如圖,有錯誤都會在下面的控制檯上輸出。

B:如果我們需要讓這個轉換定時執行怎麼辦呢,那麼我們需要建立一個作業job,見下圖,在簡單表同步這個轉換中,我們把在A步驟中建立的ktl配置上,注意路徑的正確性;

這樣我們在【Start】步驟上面雙擊,如圖:

這樣這個作業就制定好了,點擊保存之後,我們就可以在圖形化界面上點擊開始執行了!

2、2 實例2:全面進階的一個稍微複雜的例子

ž根據客戶,帳戶,交易表中的數據,生成對應的數據文件,將數據文件可以導入到對應表中,並且可以用job來調用整個流程。
ž目標:
ž1),提交對應的Kettle文件
ž2),Kettle流程可以正確執行,不報錯
ž3),對應的數據文件生成並格式無誤,對應表中有數據並格式無誤
ž說明:
ž源表:數據庫etltest中存在3張表:
目標表:etltest中一張表
 
Kettle具體解決方式,步驟比較繁瑣,大家可以直接到下載中下載Demo數據庫文件和ktr、kjb來實戰測試,這樣是最好的,下面的操作僅供參考,轉換預覽圖如下:

操作步驟:
在EtltestTrans頁面下,點擊左側的【Core Objects】,點擊【Input】,選中【表
輸入】,拖動到主窗口釋放鼠標。
雙擊【表輸入】圖標
數據庫連接選擇剛剛創建好的etltest數據庫連接,在主窗口寫入對應的查詢
語句
Select * from trade ,如下圖:

點擊確定完成。
點擊左側的【Lookup】,選中【數據庫查詢】,拖動到主窗口釋放鼠標。
按住shift鍵,用鼠標點中剛纔創建的【表輸入】,拖動到【數據庫查詢】上,
則建立了兩個環節之間的連接,如圖:

雙擊【數據庫查詢】

步驟名稱寫入account 表查詢,數據庫連接選擇剛剛創建好的etltest 數據庫
連接,查詢的表寫入account,查詢所需的關鍵字中,表字段寫入acctno,比較
操作符寫入“=”,字段1寫入acctno。
在查詢表返回的值裏面寫入custno,確定完成,如下圖:


同上,再創建一個數據庫查詢,命名爲cust表查詢,查詢的表寫入cust,查
詢所需的關鍵字寫入custno=custno,查詢表返回的值寫入custname,custid,
custtype,如下圖:


點擊左側的【Transform】,選中【過濾記錄】,拖動到主窗口釋放鼠標。
點擊左側的【Scripting】,選中兩個【Modified Java Script Value】,拖動到主窗
口釋放鼠標。分別雙擊打開,重命名爲“對公類型修改”和“對私類型修改”。
同時,分別創建【過濾記錄】和【對公類型修改】,【對私類型修改】的連接。
雙擊【規律記錄】打開。
第一個<field>裏面選擇custtype,點擊<value>,在Enter value 裏面寫入1,
確定,如圖:


在發送true數據給步驟裏,選擇【對私類型修改】,在發送false數據給步驟
裏,選擇【對公類型修改】,確定保存,如圖:


雙擊【對公類型修改】,在裏面寫入javascript 腳本語句
var custtype_cn='對公客戶交易'
在字段中寫入custtype_cn,類型選爲string。確定。
同理,在【對私類型修改】中,在裏面寫入javascript腳本語句
var custtype_cn='對私客戶交易'
在字段中寫入custtype_cn,類型選爲string。確定。
點擊左側的【Transform】,選中兩個【增加常量】,拖動到主窗口釋放鼠標。
分別雙擊打開,重命名爲“增加對公常量”和“增加對私常量”。
分別建立【對公類型修改】和【對私類型修改】與【增加對公常量】和【增
加對私常量】的連接,如圖:


雙擊【增加對公常量】,名稱寫入value,類型選擇string,值寫入“這是一
筆對公客戶發生的交易”,確定保存。
同理,雙擊【增加對私常量】,名稱寫入value,類型選擇string,值寫入“這
是一筆對私客戶發生的交易”,確定保存。
點擊左側的【Output】,選中【文本文件輸出】,拖動到主窗口釋放鼠標。
建立【增加對公常量】,【增加對私常量】和【文本文件輸出】的連接,如圖:


雙擊打開【文本文件輸出】,文件名稱寫入D:\etltest\etltest.txt
點擊內容標籤,根據情況進行修改,例如
點擊字段標籤
名稱依次寫入tradeid,acctno,amt,custno,custname,custid,custtype_cn,
value,類型根據各個字段實際類型進行選擇
確定保存
點擊保存創建好的transformation。
點擊運行這個轉換。
點擊launch,開始運行
當所有狀態都變已完成時,則轉換完成,如圖:

3、Demo下載

例子1和例子2下載

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章