SparkStreaming--輸入源（本地文件）

原創

2019-03-06 18:16

//輸入源
object WordCountHDFSSource {
  def main(args: Array[String]): Unit = {
    System.setProperty("hadoop.home.dir", "E:\\software\\bigdate\\hadoop-2.6.0-cdh5.15.0\\hadoop-2.6.0-cdh5.15.0")
    val conf = new SparkConf();
    conf.setMaster("local[2]") //一個線程用於讀數據，一個用於處理數據
    conf.setAppName("WordCountStreaming")
    val sc = new SparkContext(conf);
    val batch=5
    val streamingContext = new StreamingContext(sc, Seconds(batch))
    //監聽本地目錄
    val sourceDS=streamingContext.textFileStream("E:\\sparkdata")
    sourceDS.flatMap(
      line=>{
        line.split(" ")
      })
      .map((_,1))
      .reduceByKey(_+_)
      .print()
    streamingContext.start()
    streamingContext.awaitTermination()
    }
  }

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

spark：sparkstreaming 0.10版本從 kafka 採集數據，並存儲到 Hbase Demo示例

pom： <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="htt

花和尚也有春天

2020-06-23 00:02:29

kafka+sparkStreaming+mysql

一、說明 1、一個程序模擬用戶每個時間點到達的地方和走的步數信息，並實時寫入kafka主題；sparkStreaming實時從kafka消費這些信息進行分析並存儲到mysql;這裏直接存儲到mysql; 2、sparkStreaming存

时不我待，一日千里

2020-07-06 03:53:24

spark-18.sparkStreaming_3_DStream的轉換操作與輸出

轉換操作 1.無狀態轉換 map(func) flatMap(func) fileter(func) repartition(numPartitionts) union(otherStream) count

2020-07-04 08:37:58

基於spark的流式數據處理—spark streaming

本文主要介紹一下spark streaming，從以下三個方面來介紹： Spark Streaming設計 Spark Streaming與Storm的對比從“Hadoop+Storm”架構轉向Spark架構 Spark S

心相印-Garrett

2020-07-01 08:24:29

基於spark的流式數據處理—DStream概述

本文介紹spark streaming的DStream用法： Spark Streaming工作機制 Spark Streaming程序的基本步驟創建StreamingContext對象 Spark Streaming工作機

心相印-Garrett

2020-07-01 08:24:28

SparkStreaming 運行架構

SparkStreaming 進行數據的處理大致分爲四個步驟：啓動流處理引擎、接受以及存儲數據、處理數據、輸出結果等。（1）初始化StreamingContext對象，在該對象啓動過程中實例化DStreamGraph和JobGenra

大数据开发

2020-06-30 22:10:24

leader的均衡機制

第一步如何查看 topic的信息 1.如何查看 topic的信息，/kafka-topics .sh -- zookeeper node3:2181,node4:2181,node5:2181 --describe --t

2020-06-29 22:55:44

sparkStreaming介紹及sparkStreaming整合Kafka

1、sparkStreaming概述 1.1 什麼是sparkStreaming Spark Streaming makes it easy to build scalable fault-tolerant streaming

2020-06-29 08:55:48

Spark Streaming架構及工作原理

1、Spark Streaming有哪些組件？ 2、Micro-Batch Architecture如何理解？ 3、Spark Streaming工作原理是什麼？ 4、如何進行DStream 操作？一、簡介Spark Streaming

2020-06-28 16:24:14

SparkStreaming重複消費消息隊列中的數據解決方案

SparkStreaming重複消費消息隊列中的數據解決方案問題：在E-MapReduce上使用SparkStreaming消費阿里雲LogService（可以當作Kafka類似的消息隊列來發送和消費數據）中的數據時，每個bat

2020-06-27 12:10:52

Spark本地調試遇到的 CheckPoint 序列化問題和org.apache.hadoop.nativeio.NativeIO$windows.createFilewithMode0

第一個問題 Dstream checkpointing has been enabled but the Dstreams with their functions are not serializable 原因是創建JSSC的函數使用

2020-06-27 08:58:26

SparkStreaming程序自動重啓腳本2

通過crontab調度改腳本 #!/usr/bin/env bash ############################################################### #檢測實時程序是否存在的腳本，若

Lifecycle-log4j

2020-06-27 07:37:28

hbase寫入一段時間後變的越來越慢

一、概況集羣環境如下表：集羣機器存儲內存 CPU 每日數據 HW大數據平臺 160臺 6PB 10TB 8000 10億數據存儲在kafka中，130個分區，採用sparkstreaming

毛毛虫之路

2020-06-24 03:02:58

實時告警架構優化實戰

簡介線上有一個告警服務採用sparkstreaming+kafka的模式實時處理數據進行布控告警，10s一個批次，34個executor，每個4core，kafka有260個分區，採用直讀的方式並且打開了慢執行推測。運行一段時間後，都

毛毛虫之路

2020-06-24 03:02:58

Spark Streaming整合Kafka（二）

Direct 方法（沒有Receiver）一、概述本方法是從Spark1.3版本引進的，提供更加強大的端到端的數據保障，改善數據丟失的情況，並且不再採用receiver的方式去接收數據，這方法週期性地從每一個topic分區裏面查詢ka

疯兔子大叔

2020-06-23 04:14:11

24小時熱門文章

24-5-18 X

最新文章

最新評論文章