FileInputFormat setInputPaths 和採用listStatus 對比

原創

2020-06-16 11:15

FileInputFormat.setInputPaths(job,paths) path可以給定給一個目錄系統會會從該目錄下找打文件作爲輸入，但是如果給定的目錄下面還有一層目錄，則系統就不會再深入一層，並且可能會提示錯誤：

13/01/22 18:12:56 WARN mapred.LocalJobRunner: job_local_0001
java.io.FileNotFoundException: File does not exist: /user/zhoulei/rule2/a
at org.apache.hadoop.hdfs.DFSClient$DFSInputStream.openInfo(DFSClient.java:1843)
at org.apache.hadoop.hdfs.DFSClient$DFSInputStream.<init>(DFSClient.java:1834)
at org.apache.hadoop.hdfs.DFSClient.open(DFSClient.java:578)
at org.apache.hadoop.hdfs.DistributedFileSystem.open(DistributedFileSystem.java:154)
at org.apache.hadoop.fs.FileSystem.open(FileSystem.java:427)
at org.apache.hadoop.mapreduce.lib.input.LineRecordReader.initialize(LineRecordReader.java:67)
at org.apache.hadoop.mapred.MapTask$NewTrackingRecordReader.initialize(MapTask.java:522)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:763)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:212)

那這種情況如何處理，能遞歸找出該目錄下所有文件作爲輸入

這時候可以使用如下方式裏遞歸找出目錄下的文件

FileSystem fs = FileSystem.get(URI.create(input), conf);
  FileStatus[] status = fs.listStatus(in);
  Path[] paths = FileUtil.stat2Paths(status);
  FileInputFormat.setInputPaths(job, paths);

這種方式可行，真好用到了listStatus 遞歸找出目錄並且將paths 加入Input輸入

但是又出現一個問題，如果我要用通配符來匹配我輸入的路徑，從而過濾我需要的一些路徑那最好的建議是用globStatus

這樣可以講 path 以正則表達式的方式列出，可以進一步深入目錄而又能過濾所需

Path in = new Path(“rule2/*”);

這樣就把當前目錄下一層的文件也取出。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

FileInputFormat setInputPaths 和採用listStatus 對比

redis的key亂碼問題和值自增問題

CORS error 但是 status code 是200 OK

一個開源且全面的C#算法實戰教程

一款.NET開源、功能強大、跨平臺的繪圖庫 - OxyPlot

壓縮上傳的GPU數據的方案

OpenTelemetry 實踐指南：歷史、架構與基本概念

需求管理祕籍：從混亂到有序，讓你的項目高效運轉

使用skopeo同步鏡像

用光線投射法渲染規則模型

hbase region, store, storefile和列簇，的關係

FileInputFormat setInputPaths 和採用listStatus 對比

關於hbase的read操作的深入研究 region到storefile過程

Hadoop Mapreduce優先級調度

Apache Mahout 簡介

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

FileInputFormat setInputPaths 和 採用listStatus 對比

FileInputFormat setInputPaths 和採用listStatus 對比