在用Hadoop處理大量的日誌文件的時候,有時候會將錯誤的或者不符合要求的日誌輸出到另外一個目錄,以備後來進行查驗,這裏給出個簡單的例子,並簡單說明下如何在Hadoop Streaming中使用這種方法將錯誤格式的日誌輸出到自定義的路徑。
例子中類MultiFilesOutput繼承自MultipleTextOutputFormat<Text, Text>,可以自己定義不同的keyType,然後輸出到不同的目錄下。
在Hadoop Streaming,使用擴展的jar文件格式如下:
其中CustomOutputFormats.jar 爲生成的jar文件名稱,MultiFormats.MultiFilesOutput對應於package name和類名。