Spark Streaming整合Flume(Pull-based Approach)统计词频

原創

2020-05-20 00:14

Spark Streaming整合Flume(Pull-based Approach)统计词频

查看spark官网：
http://spark.apache.org/docs/2.2.0/streaming-flume-integration.html
flume的sink.type配置如图：

我的flume配置如下：

开发spark streaming程序
from pyspark.streaming import StreamingContext
from pyspark import SparkContext
from pyspark.streaming.flume import FlumeUtils

‘’‘Spark Streaming整合Flume(Pull-based Approach)统计词频’’’

#sc = SparkContext(master=“local[2]”,appName=“FlumePullWordCount”)
ssc = StreamingContext(sc,5)

address = [(“hadoop001”,41414)]
flumeStreams = FlumeUtils.createPollingStream(ssc=ssc,addresses=address)

#统计结果
counts = flumeStreams.map(lambda x: x[1])
.flatMap(lambda line: line.split(" "))
.map(lambda word: (word,1))
.reduceByKey(lambda a,b: a+b)

counts.pprint()

ssc.start()
ssc.awaitTermination()

采用拉取数据的方式需要先启动flume，数据会先存入缓存，再被streaming读取
./flume-ng agent
–name simple-agent
–conf $FLUME_HOME/conf
–conf-file $FLUME_HOME/conf/flume-pull-streaming.conf
-Dflume.root.logger=INFO,console &

将开发好的spark streaming程序复制到pyspark中执行，启动telnet，发送数据

查看词频统计

词频统计完成，有兴趣的小伙伴可以思考一下，如何将结果中的换行符去掉哦。。。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

用DolphinScheduler轻松实现Flume数据采集任务自动化！

轉載自天地風雷水火山澤目的因爲我們的數倉數據源是Kafka，離線數倉需要用Flume採集Kafka中的數據到HDFS中。在實際項目中，我們不可能一直在Xshell中啓動Flume任務，一是因爲項目的Flume任務很多，二是一旦Xsh

2024-04-24 21:18:09

用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本

在實際項目中，從Kafka到HDFS的數據是每天自動生成一個文件，按日期區分。而且Kafka在不斷生產數據，因此看看kettle是不是需要時刻運行？能不能按照每日自動生成數據文件？爲了測試實際項目中的海豚定時調度從Kafka到HDFS的K

2024-04-15 21:18:44

Apache DolphinScheduler 3.1.9 版本发布：提升系统的稳定性和性能

🚀我們很高興宣佈，Apache DolphinScheduler 的最新版本 3.1.9 已正式發佈！此版本在 3.1.8 的基礎上進行了關鍵的 bug 修復和文檔更新，共計修復了 14 個 bug 和改進了 3 個文檔。主要更新亮點

2023-12-28 21:27:33

Koordinator 助力云原生应用性能提升：小红书混部技术实践

編者按： Koordinator 是一個開源項目，是基於阿里巴巴內部多年容器調度、混部實踐經驗孵化誕生，是行業首個生產可用、面向大規模場景的開源混部系統，致力於提升應用服務質量，優化資源使用效率。自 2022 年 4 月正式開源以來，吸

2023-12-06 01:15:02

云原生场景下月省 10 万元资源成本，这家企业做对了什么

相信近期從事基礎設施工作的各位，對 IT 成本治理，以及 FinOps 體系的概念已經有了一些認知。在 Google 近 5 年的熱度趨勢中，FinOps 的趨勢也在持續上升。在阿里雲的同學與客戶實際工作協同中，我們發現成本治理是幾乎每位

2023-12-01 01:10:35

米哈游大数据云原生实践

近年來，容器、微服務、Kubernetes 等各項雲原生技術的日漸成熟，越來越多的公司開始選擇擁抱雲原生，並開始將 AI、大數據等類型的企業應用部署運行在雲原生之上。以 Spark 爲例，在雲上運行 Spark 可以充分享有公共雲的彈性資源

2023-11-23 00:39:26

Koordinator 支持 K8s 与 YARN 混部，小红书在离线混部实践分享

背景介紹 Koordinator 是一個開源項目，基於阿里巴巴在容器調度領域多年累積的經驗孵化誕生，目前已經支持了 K8s 生態內的在離線混部，然而在 K8s 生態外，仍有相當數量的用戶會將大數據任務運行在 Apache Hadoop Y

2023-11-17 01:57:57

Hago 的 Spark on ACK 实践

Hago 於 2018 年 4 月上線，是歡聚集團旗下的一款多人互動社交明星產品。Hago 融合優質的匹配能力和多樣化的垂類場景，提供互動遊戲、多人語音、視頻直播、 3D 虛擬形象互動等多種社交玩法，致力於爲用戶打造高效、多樣、最具沉浸式的

2023-11-17 01:57:56

datax 并发写入问题解决？

問題描述：https://my.oschina.net/xiaominmin/blog/10111950 OriginalConfPretreatmentUtil - 您的配置有誤. 由於您讀取數據庫表採用了querySql的方式, 所以

2023-10-08 00:01:55

MaxCompute 发布按量付费闲时版，计算成本最高节省66.66%！

什麼是按量付費閒時版開通MaxCompute按量付費閒時版，意味着用戶可以使用MaxCompute閒時計算資源（os_SpotQuota），它是一種共享型按量付費計算資源，閒時計算資源池與按量付費標準版計算資源共享，與包年包月計算資源隔

2023-08-17 00:29:28

spark sql 内置函数不支持在内部写spark sql代码

%spark import org.apache.spark.sql.expressions.UserDefinedFunction import org.apache.spark.sql.functions.udf impo

2023-08-01 00:03:04

使用 Apache DolphinScheduler 进行 EMR 任务调度

By AWS Team 前言隨着企業規模的擴大，業務數據的激增，我們會使用 Hadoop/Spark 框架來處理大量數據的 ETL/聚合分析作業，⽽這些作業將需要由統一的作業調度平臺去定時調度。在 Amazon EMR 中，可以使用

2023-07-26 21:20:14

地理!sadfafasfasdf!位置spark sql 范围查询 geo 类型查询!!

你仍然可以通過在 Spark 中使用第三方庫來執行地理空間查詢。GeoSpark 是一個開源的 Spark 擴展庫，提供了對地理空間數據的索引、查詢和分析功能。你可以將 GeoSpark 添加到 Spark 項目的依賴中，並使用它提供的

2023-07-20 00:18:25

spark sql 读取clickhouse 多表然后进行join

sparksql 讀取clickhouse 的user表和order表，並且通過spark sql做join查詢 import org.apache.spark.sql.*; public class ClickHouseSpar

2023-07-19 12:14:12

如何结合实际业务进行 ECS 规格选型与容量验证

隨着雲原生技術的蓬勃發展以及雲產品價格愈發低廉，越來越多 Geek 開發者、技術愛好者選擇 OSS 對象存儲、ECS 雲服務器等基礎產品構建自己的網站、網盤等應用。但對於企業而言，面對種類與規格的豐富的 ECS 雲服務器，如何瞭解實例規格的

2023-07-06 13:15:30

24小時熱門文章

使用skopeo同步镜像

最新文章

最新評論文章