DataStage實踐之簡單入門

DataStage組成:
DataStage Designer(設計者):用來創建DataStage Job(作業)的設計接口。每個作業都指定數據源,所需的轉換和數據的目的地。作業被編譯成可執行的,由Director計劃,由Server運行。
DataStage Director(指揮者):用來驗證,計劃時間,運行,監控DataStage的作業。
DataStage Manager(管理者):用來查看,編輯Repository的內容。
DataStage Administrator(主管):用於創建DataStage用戶,創建,移動項目。
 
DataStage安裝:
挺簡單的,一路Next,當然首先你必須要有授權才行,:)
 
DataStage簡單舉例(以下例子均在Server Job下運行通過):
 
功能:實現將某個定長文本文件中的數據導入到Oracle數據庫中。
總結:功能雖然簡單,但是體現了整個ETL過程,即:從數據的抽取到數據的轉換最後加載數據到指定庫的過程。
附圖:
sequenceToOracle
各部分說明:
Sequential_File_0(序列文件):數據源文件,可以是.txt,.del等任何順序文件。主要需要設置Outputs->General中的File name屬性,選定來源文件;然後需要設置該文件所對應的結構,用Outputs->Columns->Load......來加載你所需要的結構。
 
Transformer(轉換所用到的Stage組件):主要需要設置其“轉換規則”(個人理解),當數據從Sequential_File_0中讀出來的時候,按照相應的“規則”再加載到數據庫中,其實也就是對數據實現清洗的過程,當然還有去重等等之類,在這裏的例子比較簡單,所以不需要對數據進行任何處理。該組件雖然使用很簡單,但是效率卻不是很好,所以在具體的實踐中應儘量少用該組件。
 
Oracle_OCI_9(Oracle組件):DataStage之所以能夠完成對異構數據庫進行統一處理,最主要的原因我想就在於此吧!它提供了衆多的數據庫Stage,如DB2,Informix,Oracle,Sybase等等,即使你都不用,你還可以通過ODBC來完成對數據庫的鏈接,一個字:強!這裏對Oracle_OCI_9組件的設置主要在於對DataBase Source Name(數據庫實例名稱),User ID(表空間名稱),Password(表空間密碼)的設置,以及對某張表名,表結構的設置等等。
各部分設置附圖:
Sequential_File_0:
 
Transformer:
Oracle_OCI_9:
 
經驗總結:在運行時可能會遇到問題,用Director可以查看其報的錯以及警告信息,不錯哦!!
 
 
 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章