掃一掃加入大數據公衆號和技術交流羣,瞭解更多大數據技術,還有免費資料等你哦
簡介
在日常開發中讀取hdfs文件是很頻繁的操作,並且在這個過程中我們可能會有如下需求:
- 讀取某個目錄下的所有的文件,也就是遞歸讀取hdfs的目錄
- 按條件讀取hdfs,也就是正則表達式讀取目錄下的文件
看到這些需求,我們可能想到spark都支持的不錯,Flink支持的怎麼樣呢?本篇文章詳細介紹一下Flink如何實現,遞歸,正則表達式等方式讀取hdfs的目錄。
Flink遞歸讀取hdfs上多路徑文件
比如,讀取如下面所示data目錄下日期命名的文件夾,如果直接使用env.readTextFile("//127.0.0.1:9000/data/"),是獲取不到數據的,因爲Flink默認情況下不遞歸讀取多目錄文件。而是隻讀取基本目錄中的文件,而忽略嵌套文件。可以通過recursive.file.enumeration
配置參數啓用嵌套文