從文本文件中獲得數據,常見的文本文件包括csv 、txt、文件等。用戶要在該步驟指定文件名、文件內容、錯誤處理方式、過濾器、字段等項目。
參數說明:
l 指定文件名的三種方式
1. 指定一個具體的文件名。
2. 指定一個正則表達式,來匹配一個目錄下的文件。
3. 將其它步驟的運行結果作爲文件名。
l 文件內容設置
分隔符:指定字段之間的分隔符號
文本限定符:指定一個字符串左右的限定符號,有限定符的字符串裏可以使用分隔符。有限定符的字符串內部如果要使用限定符,要將限定符加倍。
轉義符:指定文本中的轉義符號,用來將其後的字符轉義。
頁眉:指定頁眉的行數,頁眉行不作爲數據行處理。
頁腳:指定頁腳的行數,頁腳行不作爲數據行處理。
回捲:說明一個數據行是否被回捲爲多行。
l 錯誤處理設置
忽略錯誤:是否忽略解析過程中產生的錯誤。
跳過錯誤行:是否跳過發生錯誤的行。如果不跳過,那麼發生錯誤的字段值會被置爲空。
記錄錯誤數的輸出字段:指定一個輸出字段用來記錄解析錯誤的字段的個數。
記錄錯誤描述的輸出字段:指定一個輸出字段用來記錄發生錯誤的所有字段的名字。
記錄錯誤字段名的輸出字段:指定一個輸出字段用來記錄錯誤的描述信息。
警告文件目錄:當發生警告時,警告將保存在這個指定的目錄下。
錯誤文件目錄:當發生警告時,警告將保存在這個指定的目錄下。
失敗行數文件目錄:當讀取行失敗時,讀取失敗的行號將保存在這個指定的目錄下。
l 過濾器
過濾器:用來過濾輸入行,符合過濾器條件的輸入行將被忽略掉。
過濾字符串:用來去匹配輸入數據的字符串(不支持正則表達式)
過濾開始位置:指定字符串裏開始匹配的位置,負數或0表示從第一個字符開始匹配。
停止處理:當遇到了匹配的字符串時,是否停止處理
l 字段
設定字段名稱和數據類型