kettle轉換實踐(二)-合併記錄

(1)合併記錄步驟說明

###舊數據來源:舊數據來源的步驟
###新數據來源:新數據來源的步驟

標誌字段:設置標誌字段的名稱,標誌字段用於保存比較的結果,比較結果有下列幾種。
1. “identical” – 舊數據和新數據一樣
2. “changed” – 數據發生了變化;
3. “new” – 新數據中有而舊數據中沒有的記錄
4. “deleted” –舊數據中有而新數據中沒有的記錄

###關鍵字段:用於定位兩個數據源中的同一條記錄。
###比較字段:對於兩個數據源中的同一條記錄中,指定需要比較的字段。
###合併後的數據將包括舊數據來源和新數據來源裏的所有數據,對於變化的數據,使用新數據代替舊數據,同時在結果裏用一個標誌字段,來指定新舊數據的比較結果。

###注意:
      舊數據和新數據需要事先按照關鍵字段排序。
      舊數據和新數據要有相同的字段名稱。

(2)多表連接示例

附:在數據抽取過程中出現中文亂碼問題,可行解決辦法有:
打開Spoon.bat,在if “%PENTAHO_DI_JAVA_OPTIONS%”==”” set PENTAHO_DI_JAVA_OPTIONS=”-Xms1024m” “-Xmx2048m” “-XX:MaxPermSize=256m”,後面加了”-Dfile.encoding=UTF-8”,再重啓即可解決亂碼。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章