SparkStreaming讀取hdfs文件

原創

2020-02-20 22:17

package spark.SparkStreaming.file

import org.apache.spark.SparkContext
import org.apache.spark.sql.SparkSession
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * Description：統計hdfs上指定目錄中實時的文件中單詞的次數（特點：實時的文件，不是歷史的文件）<br/>
  */
object test extends App {
  //SparkSession
  val spark: SparkSession = SparkSession.builder()
    .appName(test.getClass.getSimpleName)
    .master("local[*]")
    .getOrCreate()

  val sc: SparkContext = spark.sparkContext


  val ssc: StreamingContext = new StreamingContext(sc, Seconds(2))


  //DStream,迭代計算,並顯示內容
     ssc.textFileStream("hdfs://mini1:9000/spark-streaming/wc") //← hdfs上特定的資源目錄
    .flatMap(_.split("\\s+"))
    .filter(_.nonEmpty)
    .map((_, 1))
    .print(100)

  //啓動SparkStreaming應用
  ssc.start

  //等待結束（必須要添加）
  ssc.awaitTermination

}

luoyunfan6

發佈了91 篇原創文章 · 獲贊 9 · 訪問量 3676

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

SparkStreaming讀取hdfs文件

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

lightdb數據庫超時相關控制參數

lightdb秒級增加列和刪除列（not null帶默認值）

Java ThreadPoolShutdown

kafka分佈式集羣的搭建

sql索引使用以及應用場景

kafka的api操作（發佈和訂閱）

SparkStreaming對接kafka代碼測試

SparkStreaming讀取hdfs文件

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結