Spark Streaming整合Flume（Push-based Approach）統計詞頻

原創

2020-05-20 00:14

Spark Streaming整合Flume統計詞頻

配置flume的配置文件，如下：

開發sparkstreaming程序，如下：
from pyspark.streaming import StreamingContext
from pyspark import SparkContext
from pyspark.streaming.flume import FlumeUtils

‘’‘Spark Streaming整合Flume統計詞頻’’’

#sc = SparkContext(master=“local[2]”,appName=“FlumeNetWorkWordCount”)
ssc = StreamingContext(sc,5)

flumeStreams = FlumeUtils.createStream(ssc, “hadoop001”, 41414)
counts = flumeStreams.map(lambda x:x[1])
.flatMap(lambda line:line.split(","))
.map(lambda word:(word,1))
.reduceByKey(lambda a,b:a+b)

counts.pprint()

ssc.start()
ssc.awaitTermination()

因爲我們採用的數據讀取方式是push，所以需要先啓動pyspark，將上述代碼複製到命令行，然後啓動flume：
./flume-ng agent
–name simple-agent
–conf $FLUME_HOME/conf
–conf-file $FLUME_HOME/conf/flume-push-streaming.conf
-Dflume.root.logger=INFO,console &

使用telnet，發送數據

查看詞頻統計如下：

程序能夠運行，實現我們想要的功能。

注：如果程序報如下錯誤：

需要去maven倉庫下載相應的jar包依賴，鏈接：
https://search.maven.org/
搜索自己需要的jar包版本，wget到spark的安裝目錄jars下即可。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

用DolphinScheduler輕鬆實現Flume數據採集任務自動化！

轉載自天地風雷水火山澤目的因爲我們的數倉數據源是Kafka，離線數倉需要用Flume採集Kafka中的數據到HDFS中。在實際項目中，我們不可能一直在Xshell中啓動Flume任務，一是因爲項目的Flume任務很多，二是一旦Xsh

2024-04-24 21:18:09

用海豚調度器定時調度從Kafka到HDFS的kettle任務腳本

在實際項目中，從Kafka到HDFS的數據是每天自動生成一個文件，按日期區分。而且Kafka在不斷生產數據，因此看看kettle是不是需要時刻運行？能不能按照每日自動生成數據文件？爲了測試實際項目中的海豚定時調度從Kafka到HDFS的K

2024-04-15 21:18:44

Apache DolphinScheduler 3.1.9 版本發佈：提升系統的穩定性和性能

🚀我們很高興宣佈，Apache DolphinScheduler 的最新版本 3.1.9 已正式發佈！此版本在 3.1.8 的基礎上進行了關鍵的 bug 修復和文檔更新，共計修復了 14 個 bug 和改進了 3 個文檔。主要更新亮點

2023-12-28 21:27:33

Koordinator 助力雲原生應用性能提升：小紅書混部技術實踐

編者按： Koordinator 是一個開源項目，是基於阿里巴巴內部多年容器調度、混部實踐經驗孵化誕生，是行業首個生產可用、面向大規模場景的開源混部系統，致力於提升應用服務質量，優化資源使用效率。自 2022 年 4 月正式開源以來，吸

2023-12-06 01:15:02

雲原生場景下月省 10 萬元資源成本，這家企業做對了什麼

相信近期從事基礎設施工作的各位，對 IT 成本治理，以及 FinOps 體系的概念已經有了一些認知。在 Google 近 5 年的熱度趨勢中，FinOps 的趨勢也在持續上升。在阿里雲的同學與客戶實際工作協同中，我們發現成本治理是幾乎每位

2023-12-01 01:10:35

米哈遊大數據雲原生實踐

近年來，容器、微服務、Kubernetes 等各項雲原生技術的日漸成熟，越來越多的公司開始選擇擁抱雲原生，並開始將 AI、大數據等類型的企業應用部署運行在雲原生之上。以 Spark 爲例，在雲上運行 Spark 可以充分享有公共雲的彈性資源

2023-11-23 00:39:26

Koordinator 支持 K8s 與 YARN 混部，小紅書在離線混部實踐分享

背景介紹 Koordinator 是一個開源項目，基於阿里巴巴在容器調度領域多年累積的經驗孵化誕生，目前已經支持了 K8s 生態內的在離線混部，然而在 K8s 生態外，仍有相當數量的用戶會將大數據任務運行在 Apache Hadoop Y

2023-11-17 01:57:57

Hago 的 Spark on ACK 實踐

Hago 於 2018 年 4 月上線，是歡聚集團旗下的一款多人互動社交明星產品。Hago 融合優質的匹配能力和多樣化的垂類場景，提供互動遊戲、多人語音、視頻直播、 3D 虛擬形象互動等多種社交玩法，致力於爲用戶打造高效、多樣、最具沉浸式的

2023-11-17 01:57:56

datax 併發寫入問題解決？

問題描述：https://my.oschina.net/xiaominmin/blog/10111950 OriginalConfPretreatmentUtil - 您的配置有誤. 由於您讀取數據庫表採用了querySql的方式, 所以

2023-10-08 00:01:55

MaxCompute 發佈按量付費閒時版，計算成本最高節省66.66%！

什麼是按量付費閒時版開通MaxCompute按量付費閒時版，意味着用戶可以使用MaxCompute閒時計算資源（os_SpotQuota），它是一種共享型按量付費計算資源，閒時計算資源池與按量付費標準版計算資源共享，與包年包月計算資源隔

2023-08-17 00:29:28

spark sql 內置函數不支持在內部寫spark sql代碼

%spark import org.apache.spark.sql.expressions.UserDefinedFunction import org.apache.spark.sql.functions.udf impo

2023-08-01 00:03:04

使用 Apache DolphinScheduler 進行 EMR 任務調度

By AWS Team 前言隨着企業規模的擴大，業務數據的激增，我們會使用 Hadoop/Spark 框架來處理大量數據的 ETL/聚合分析作業，⽽這些作業將需要由統一的作業調度平臺去定時調度。在 Amazon EMR 中，可以使用

2023-07-26 21:20:14

地理!sadfafasfasdf!位置spark sql 範圍查詢 geo 類型查詢!!

你仍然可以通過在 Spark 中使用第三方庫來執行地理空間查詢。GeoSpark 是一個開源的 Spark 擴展庫，提供了對地理空間數據的索引、查詢和分析功能。你可以將 GeoSpark 添加到 Spark 項目的依賴中，並使用它提供的

2023-07-20 00:18:25

spark sql 讀取clickhouse 多表然後進行join

sparksql 讀取clickhouse 的user表和order表，並且通過spark sql做join查詢 import org.apache.spark.sql.*; public class ClickHouseSpar

2023-07-19 12:14:12

如何結合實際業務進行 ECS 規格選型與容量驗證

隨着雲原生技術的蓬勃發展以及雲產品價格愈發低廉，越來越多 Geek 開發者、技術愛好者選擇 OSS 對象存儲、ECS 雲服務器等基礎產品構建自己的網站、網盤等應用。但對於企業而言，面對種類與規格的豐富的 ECS 雲服務器，如何瞭解實例規格的

2023-07-06 13:15:30

24小時熱門文章

最新文章

最新評論文章