kettle 基礎知識學習

前言:Kettle是一款國外開源的ETL工具,純java編寫,可以在Windows、Linux、Unix上運行,數據抽取高效穩定。

Kettle 中文名稱叫水壺,該項目的主程序員MATT 希望把各種數據放到一個壺裏,然後以一種指定的格式流出。

 

Kettle中有兩種腳本文件:

transformation和job,transformation完成針對數據的基礎轉換,job則完成整個工作流的控制。

基本概念:

Kettle家族目前包括4個產品:Spoon、Pan、CHEF、Kitchen。

SPOON 允許你通過圖形界面來設計ETL過程。啓動過程爲進入data-integration目錄,雙擊spoon.bat

PAN 允許你批量運行由Spoon設計的ETL轉換 。Pan是一個後臺執行的程序,沒有圖形界面。

CHEF 允許你創建任務(Job)。

KITCHEN 允許你批量使用由Chef設計的任務。KITCHEN也是一個後臺運行的程序。

作業(job)
負責將[轉換]組織在一起進而完成某一塊工作,通常我們需要把一個大的任務分解成幾個邏輯上隔離的作業,當這幾個作業都完成了,也就說明這項任務完成了。

轉換(Transformation)
定義對數據操作的容器,數據操作就是數據從輸入到輸出的一個過程,可以理解爲比作業粒度更小一級的容器,我們將任務分解成作業,然後需要將作業分解成一個或多個轉換,每個轉換隻完成一部分工作。

kettle搭建非常簡單,開箱即用。前提是java的環境變量得本地電腦配置好。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章