sparkStreaming之transform的细节

原創

2021-01-30 10:46

val socketLineDStream: ReceiverInputDStream[String] = streamingContext.socketTextStream('linux1', 8888)
// TODO Driver中执行一次
// 例如val a = 1 在Driver中只执行一次
// 首先看一下DStream的其他Transformations（转换）操作
socketLineDStream.map({
   
   
    case x => {
   
   
        // TODO Executor中执行n次（n是Executor数）
    }
}
)

// 重点来了，看一下DStream的transform转换操作
socketLineDStream.transform({
   
   
    case rdd => {
   
   
        // TODO Driver中执行m次（m是采集周期数）
        rdd.map({
   
   
            case x => {
   
   
                //TODO Executor中执行n次(n是Executor数)
            }
        })
    }
}
)

注意：

transform中的注释处的m就是细节之处，它可以保证此处运行在Driver中的代码可以周期(SparkStreaming的数据采集周期)间变化，即每个数据周期transform走一遍。用处之一是黑名单的更新（比如恶意发帖的用户的更新）
为什么DStream.map里面的代码执行是在Executor？个人理解因为DStream在每个周期（批次）相当于就是一个RDD的封装，所以可以类比RDD.map()里面的代码是运行在Executor端

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

程序员常见的文本查看工具

Notepad (Windows) 一個簡單的文本編輯器，適用於查看和編輯小型文本文件。 Notepad++ 一個功能強大的文本編輯器，支持多種編程語言的語法高亮和大文件查看。 Vim 一個功能豐富的命令行文本編輯

2024-06-12 02:23:08

v5内存分配器性能优化

背景在之前我們提到採用自定義的內存分配器來解決防止頻繁 make 導致的 gc 問題。gc 問題本質上是 CPU 消耗，而內存分配器本身如果產生了大量的 CPU 消耗那就得不償失。經過測試初代內存分配器實現過於簡單，產生了很多 CPU

2024-06-12 02:02:48

安装neuron，并简单使用案例

安裝neuron，並簡單使用案例一獲取 Docker 鏡像 $ docker pull emqx/neuron:latest 二啓動 Docker 容器 $ docker run -d --name neuron -p 7000:70

2024-06-12 02:01:50

npm中添加镜像地址配置

npm config set registry=https://registry.npmmirror.com

2024-06-12 02:01:49

SonarQube代码质量检测线上配置指南

SonarQube 是一個開源的代碼質量管理平臺，用於自動審查代碼，檢測潛在的錯誤、漏洞和不良實踐，以提高軟件質量。本文檔旨在指導您完成SonarQube在生產環境中的配置，確保您的項目代碼得到持續且有效的質量監控。 1. 環境準備 1.1

2024-06-12 01:12:57

JeecgBoot与Jenkins集成发布实用文档

JeecgBoot作爲一個強大的低代碼開發平臺，結合Jenkins的自動化構建和部署能力，可以極大地提升開發團隊的效率和代碼發佈的可靠性。本文檔旨在指導如何將JeecgBoot項目集成到Jenkins中，實現從代碼提交到自動部署的一體化流程

2024-06-12 01:12:54

爬取京东商品图片的Python实现方法

引言在數據驅動的商業環境中，網絡爬蟲技術已成爲獲取信息的重要手段。京東作爲中國領先的電商平臺，擁有海量的商品信息和圖片資源。本文將詳細介紹如何使用Python編寫爬蟲程序，爬取京東商品的圖片，並提供完整的代碼實現過程。爬蟲基礎在開

2024-06-12 00:06:03

ITSM落地经验之建设蓝图规划

ITSM的規劃建設不同於數字化轉型規劃，更多體現在管理中基本要素變革的規劃，傳統的ITSM規劃重點在於流程規劃。在過去，結合大部分客戶實施ITSM效果較差或失敗的現象來看，這些組織往往忽略了對組織文化與管理實踐的診斷和規劃，我們的建議在規劃

2024-06-12 00:01:34

一个 Clickhouse 集群磁盘损坏恢复数据的案例

通過一個故障案例，理解 ClickHouse 分佈式機制。作者：張宇，愛可生DBA，負責數據庫運維和故障分析。擅長 ClickHouse、MySQL、Oracle，愛好騎行、AI、動漫和技術分享。愛可生開源社區出品，原創內容未經授權不

2024-06-11 23:59:12

使用tofu替换terraform入门指导

1. 什麼是 ToFu tofu 是 terraform 的一個開源分支, 因爲在 2023 年 8 月 10 日 terraform 的許可從 Mozilla Public License (v2.0) (the “MPL”)變爲了 Bu

2024-06-11 23:55:06

云原生周刊：Kubernetes 十周年｜ 2024.6.11

開源項目推薦 Kubernetes Goat Kubernetes Goat 是一個故意設計成有漏洞的 Kubernetes 集羣環境，旨在通過交互式實踐場地來學習並練習 Kubernetes 安全性。 kube-state-metrics

2024-06-11 23:16:00

带你走进信息安全软件架构

汽車信息安全逐步受到重視，網絡安全相關法律法規陸續頒佈。在這樣的背景下，AUTOSAR 組織也發佈了有關信息安全模塊和 Crypto Stack( 加密協議棧 )，落地有關汽車信息安全法律法規要求，應對汽車網絡安全風險。從 2

2024-06-11 23:10:04

星火闪耀，与AI同行丨华为开发者大会2024社区活动重磅上线！

本文分享自華爲雲社區《星火閃耀，與AI同行丨華爲開發者大會2024社區活動重磅上線！》，作者：華爲雲社區精選。盛夏始，萬物秀，華爲開發者大會2024即將開啓華爲雲開發者社區重磅推出“星火閃耀，與AI同行”線上活動，開發者熱點直播，熱門

2024-06-11 22:57:15

EMQX 与 MQTT: AI 大模型时代的分布式数据中枢

在以數據爲核心的 AI 時代，信息的快速和精確傳遞已成爲構建高效系統的基石。人工智能和機器學習模型的複雜性，讓各行業和企業對數據的需求穩步提升，同時，物聯網設備數量也在經歷爆炸式的增⻓。在這樣的背景下，MQTT Broker （基於 MQT

2024-06-11 22:10:17

WinForm应用实战开发指南 - 表格数据录入问题解析

一般來說，錄入數據的時候，我們都採用在一個窗體界面中，根據不同內容進行錄入。但是有時候涉及主從表的數據錄入，從表的數據有時候爲了錄入方便，也會通過表格控件直接錄入。在Winform開發的時候，我們很多時候可以利用表格GridControl控

界面開發小八哥

2024-06-11 12:18:15

24小時熱門文章

最新文章

最新評論文章