Spark Streaming 的saveAsTextFiles遇到的坑

原創

五維空間s

2019-01-10 17:17

使用sparkStreaming消費數據，並使用Dstream的 saveAsTextFile保存數據到hdfs中，通過使用這個方法，生成的文件夾存在問題，

代碼例子如下：

resultRdd.map(x=>x).saveAsTextFiles("hdfs:ip//data/storage/20181010/"+(new Date())) //new Date()自行轉化

ssc.start()

ssc.awaitermination()

而hsfs中目錄顯示爲

/data/storage/20181010/201810100708223-1547016648000

/data/storage/20181010/201810100708223-1547016652000

/data/storage/20181010/201810100708223-1547016658000

.........................................

從中發現最後面多了一條橫槓 -和時間戳1547016648000，是根據間隔時間自動生成的，但是我不想要他後面的-1547016648000，

並且201810100708223日期固定住了

查看saveAsTextFiles源碼

def saveAsTextFiles(prefix: String, suffix: String = ""): Unit = ssc.withScope {

  val saveFunc = (rdd: RDD[T], time: Time) => {

    val file = rddToFileName(prefix, suffix,time)

    rdd.saveAsTextFile(file)

  }

  this.foreachRDD(saveFunc)

}

saveAsTextFiles方法中也是調用了saveAsTextFile方法，其中有個添加時間戳的方法。

於是我根據源碼自己使用foreachRDD，生成文件使用saveAsTextFile

resultRdd.foreachRDD{

rdd=>{}

rdd.map(x=>x).saveAsTextFile("hdfs:ip//data/storage/20181010/"+(new Date()))  //new Date()自行轉化

}



ssc.start()

ssc.awaitermination()

現在hsfs中目錄顯示爲

/data/storage/20181010/201810100708223

/data/storage/20181010/201810100708460

達到自己想要的結果，根據streaming 間隔時間生成文件夾，並其中包含文件。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark Streaming 的saveAsTextFiles遇到的坑

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

HTML 00 Tutorial

全面系統的AI學習路徑，幫助普通人也能玩轉AI

從零開始：使用 Playwright 腳本錄製實現自動化測試

uni-app實現上拉加載

spark streaming 流式計算-----容錯（hbase冪等性修改）

廣播變量(Broadcast)-及生命週期

SparkStreaming 手動維護kafka Offset到Mysql實例

使用SparkSql 讀取ES數據

分佈式消息隊列kafka

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結