KETTLE、spoon使用

ETL是Extract”、“ Transform” 、“Load”三個單詞的首字母縮寫分別代表了抽取、轉換、裝載、是數據倉庫中重要的一環、ETL是數據的抽取清洗轉換加載的過程,是數據進入數據倉庫進行大數據分析的載入過程,抽取將數據從各種原始的業務系統中讀取出來,這是所有工作的前提。轉換按照預先設計好的規則將抽取得數據進行轉換,使本來異構的數據格式能統一起來。裝載將轉換完的數據按計劃增量或全部導入到數據倉庫中。大數據的利器大家可能普遍說是hadoop,但是大家要知道如果我們不做預先的清洗和轉換處理,我們進入hadoop後僅通過mapreduce進行數據清洗轉換再進行分析,垃圾數據會導致我們的磁盤佔用量會相當大,這樣無形中提升了我們的硬件成本(硬盤大,內存小處理速度會很慢,內存大cpu性能低速度也會受影響),因此雖然hadoop理論上解決了爛機器拼起來解決大問題的問題,但是事實上如果我們有更好的節點速度必然是會普遍提升的,因此ETL在大數據環境下仍然是必不可少的數據交換工具。目前流行的數據進入倉庫的過程有兩種形式,一種是進入數據庫後再進行清洗和轉換,另外一條路線是首先進行清洗轉換再進入數據庫,我們的ETL屬於後者。ETL是數據整合解決方案。目前的運行應用系統是用戶花了大部分精力和構建的、系統中的數據時非常寶貴的、是不可代理的系統、它的存在是爲了解決原始數據庫中的數據來源與格式的不同導致的系統實施、數據整合問題。

KETTLE是一款很優秀的開源ELT工具、java編寫的、可以在Window、Linux、Unix上運行、KETTLE應用廣泛,而且使用方便、抽取高效穩定。僅僅學會使用就可以找到一份不錯的工作、【數據層交換和高性能併發處理】課程***了大數據的一些處理方法,與目前流行的hadoop配合使用。分析KETTLE源碼,即使對ETL興趣不大,至少可以瞭解國外開源項目的一些源碼,並且KETTLE本身也使用了很多開源項目,因此可以從該工具上學到更多東西。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章