SparkStreaming从入门到放弃（二）

原創

2019-08-02 02:07

本节主要针对Dstream 静态模板的讲解。回顾RDD，rdd是一个只读的数据集，因此不难知道，dstream也是一个数据集，也有transfermation和output。在dstreaming中，transfermation有map\filter\join\reduce等，output有print\save\foreachRDD等。

看上节的例子：

ssc.socketTextStream("localhost", 9999).flatMap(_.split(“ ”)).map(word=>(word,1)).reduceBykey(_+_).print();

上面的调用方式为：

我们知道在实际运行job时是从后向前回溯的，RDD 的计算是被触发了以后才进行 lazy 求值的，即当真正求 d 的值的时候，先计算上游 dependency c；而计算 c 则先进一步计算 c 的上游 dependency a 和 b。Spark Streaming 里则与 RDD DAG 的反向表示保持了一致，对 DStream 也采用的反向表示。D.print() 将 new 一个 d 的一个下游 ForEachDStream x —— x 中记明了需要做的操作 func = print() ,然后在每个 batch 动态生成 RDD 实例时，以 x 为根节点、进行一次 BFS（宽度优先遍历）

总结：

Spark Streaming 记录整个 DStream DAG 的方式，就是通过一个 DStreamGraph 实例记录了到所有的 output stream 节点的引用
- 通过对所有 output stream 节点进行遍历，就可以得到所有上游依赖的 DStream
- 不能被遍历到的 DStream 节点 —— 如 g 和 h —— 则虽然出现在了逻辑的 DAG 中，但是并不属于物理的 DStreamGraph，也将在 Spark Streaming 的实际运行过程中不产生任何作用
DStreamGraph 实例同时也记录了到所有 input stream 节点的引用
- DStreamGraph 时常需要遍历没有上游依赖的 DStream 节点 —— 称为 input stream —— 记录一下就可以避免每次为查找 input stream 而对 output steam 进行 BFS 的消耗

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

spark：sparkstreaming 0.10版本从 kafka 采集数据，并存储到 Hbase Demo示例

pom： <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="htt

花和尚也有春天

2020-06-23 00:02:29

kafka+sparkStreaming+mysql

一、說明 1、一個程序模擬用戶每個時間點到達的地方和走的步數信息，並實時寫入kafka主題；sparkStreaming實時從kafka消費這些信息進行分析並存儲到mysql;這裏直接存儲到mysql; 2、sparkStreaming存

时不我待，一日千里

2020-07-06 03:53:24

spark-18.sparkStreaming_3_DStream的转换操作与输出

轉換操作 1.無狀態轉換 map(func) flatMap(func) fileter(func) repartition(numPartitionts) union(otherStream) count

2020-07-04 08:37:58

基于spark的流式数据处理—spark streaming

本文主要介紹一下spark streaming，從以下三個方面來介紹： Spark Streaming設計 Spark Streaming與Storm的對比從“Hadoop+Storm”架構轉向Spark架構 Spark S

心相印-Garrett

2020-07-01 08:24:29

基于spark的流式数据处理—DStream概述

本文介紹spark streaming的DStream用法： Spark Streaming工作機制 Spark Streaming程序的基本步驟創建StreamingContext對象 Spark Streaming工作機

心相印-Garrett

2020-07-01 08:24:28

SparkStreaming 运行架构

SparkStreaming 進行數據的處理大致分爲四個步驟：啓動流處理引擎、接受以及存儲數據、處理數據、輸出結果等。（1）初始化StreamingContext對象，在該對象啓動過程中實例化DStreamGraph和JobGenra

大数据开发

2020-06-30 22:10:24

leader的均衡机制

第一步如何查看 topic的信息 1.如何查看 topic的信息，/kafka-topics .sh -- zookeeper node3:2181,node4:2181,node5:2181 --describe --t

2020-06-29 22:55:44

sparkStreaming介绍及sparkStreaming整合Kafka

1、sparkStreaming概述 1.1 什麼是sparkStreaming Spark Streaming makes it easy to build scalable fault-tolerant streaming

2020-06-29 08:55:48

Spark Streaming架构及工作原理

1、Spark Streaming有哪些組件？ 2、Micro-Batch Architecture如何理解？ 3、Spark Streaming工作原理是什麼？ 4、如何進行DStream 操作？一、簡介Spark Streaming

2020-06-28 16:24:14

SparkStreaming重复消费消息队列中的数据解决方案

SparkStreaming重複消費消息隊列中的數據解決方案問題：在E-MapReduce上使用SparkStreaming消費阿里雲LogService（可以當作Kafka類似的消息隊列來發送和消費數據）中的數據時，每個bat

2020-06-27 12:10:52

Spark本地调试遇到的 CheckPoint 序列化问题和org.apache.hadoop.nativeio.NativeIO$windows.createFilewithMode0

第一個問題 Dstream checkpointing has been enabled but the Dstreams with their functions are not serializable 原因是創建JSSC的函數使用

2020-06-27 08:58:26

SparkStreaming程序自动重启脚本2

通過crontab調度改腳本 #!/usr/bin/env bash ############################################################### #檢測實時程序是否存在的腳本，若

Lifecycle-log4j

2020-06-27 07:37:28

hbase写入一段时间后变的越来越慢

一、概況集羣環境如下表：集羣機器存儲內存 CPU 每日數據 HW大數據平臺 160臺 6PB 10TB 8000 10億數據存儲在kafka中，130個分區，採用sparkstreaming

毛毛虫之路

2020-06-24 03:02:58

实时告警架构优化实战

簡介線上有一個告警服務採用sparkstreaming+kafka的模式實時處理數據進行布控告警，10s一個批次，34個executor，每個4core，kafka有260個分區，採用直讀的方式並且打開了慢執行推測。運行一段時間後，都

毛毛虫之路

2020-06-24 03:02:58

Spark Streaming整合Kafka（二）

Direct 方法（沒有Receiver）一、概述本方法是從Spark1.3版本引進的，提供更加強大的端到端的數據保障，改善數據丟失的情況，並且不再採用receiver的方式去接收數據，這方法週期性地從每一個topic分區裏面查詢ka

疯兔子大叔

2020-06-23 04:14:11

24小時熱門文章

最新文章

最新評論文章