flink實戰--flink讀取hdfs目錄下多個文件(遞歸、正則匹配)

掃一掃加入大數據公衆號和技術交流羣,瞭解更多大數據技術,還有免費資料等你哦

簡介

                  在日常開發中讀取hdfs文件是很頻繁的操作,並且在這個過程中我們可能會有如下需求:

  1.   讀取某個目錄下的所有的文件,也就是遞歸讀取hdfs的目錄
  2.   按條件讀取hdfs,也就是正則表達式讀取目錄下的文件

                看到這些需求,我們可能想到spark都支持的不錯,Flink支持的怎麼樣呢?本篇文章詳細介紹一下Flink如何實現,遞歸,正則表達式等方式讀取hdfs的目錄。

Flink遞歸讀取hdfs上多路徑文件

               比如,讀取如下面所示data目錄下日期命名的文件夾,如果直接使用env.readTextFile("//127.0.0.1:9000/data/"),是獲取不到數據的,因爲Flink默認情況下不遞歸讀取多目錄文件。而是隻讀取基本目錄中的文件,而忽略嵌套文件。可以通過recursive.file.enumeration配置參數啓用嵌套文

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章