前言:Kettle是一款國外開源的ETL工具,純java編寫,可以在Windows、Linux、Unix上運行,數據抽取高效穩定。
Kettle 中文名稱叫水壺,該項目的主程序員MATT 希望把各種數據放到一個壺裏,然後以一種指定的格式流出。
Kettle中有兩種腳本文件:
transformation和job,transformation完成針對數據的基礎轉換,job則完成整個工作流的控制。
基本概念:
Kettle家族目前包括4個產品:Spoon、Pan、CHEF、Kitchen。
SPOON 允許你通過圖形界面來設計ETL過程。啓動過程爲進入data-integration目錄,雙擊spoon.bat
PAN 允許你批量運行由Spoon設計的ETL轉換 。Pan是一個後臺執行的程序,沒有圖形界面。
CHEF 允許你創建任務(Job)。
KITCHEN 允許你批量使用由Chef設計的任務。KITCHEN也是一個後臺運行的程序。
作業(job)
負責將[轉換]組織在一起進而完成某一塊工作,通常我們需要把一個大的任務分解成幾個邏輯上隔離的作業,當這幾個作業都完成了,也就說明這項任務完成了。
轉換(Transformation)
定義對數據操作的容器,數據操作就是數據從輸入到輸出的一個過程,可以理解爲比作業粒度更小一級的容器,我們將任務分解成作業,然後需要將作業分解成一個或多個轉換,每個轉換隻完成一部分工作。