Hadoop & Hadoop Streaming 自定義輸出格式

    在用Hadoop處理大量的日誌文件的時候,有時候會將錯誤的或者不符合要求的日誌輸出到另外一個目錄,以備後來進行查驗,這裏給出個簡單的例子,並簡單說明下如何在Hadoop Streaming中使用這種方法將錯誤格式的日誌輸出到自定義的路徑。

    例子中類MultiFilesOutput繼承自MultipleTextOutputFormat<Text, Text>,可以自己定義不同的keyType,然後輸出到不同的目錄下。


 在Hadoop Streaming,使用擴展的jar文件格式如下:

其中CustomOutputFormats.jar 爲生成的jar文件名稱,MultiFormats.MultiFilesOutput對應於package name和類名。

發佈了45 篇原創文章 · 獲贊 16 · 訪問量 11萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章