pyspark streaming+Kafka demo

原創

2019-09-05 06:42

from pyspark import SparkConf
from pyspark.sql import SparkSession
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils
import os
os.environ['PYSPARK_PYTHON'] = '/usr/local/bin/python3.7'


def updateFunction(newValues, runningCount):
    if runningCount is None:
        runningCount = 0
    return sum(newValues, runningCount)


def start():

    conf = SparkConf().set(
        "spark.python.profile",
        "true").set(
        "spark.io.compression.codec",
        "snappy")

    conf.setAppName('spark-streaming-test').setMaster("local[*]")
    spark = SparkSession.builder.config(conf=conf).getOrCreate()
    sc = spark.sparkContext

    ssc = StreamingContext(sc, 1)
    ssc.checkpoint("checkpoint")

    brokers = "localhost:9092"
    topic = 'test'
    kafkaStreams = KafkaUtils.createDirectStream(
        ssc, [topic], kafkaParams={
            "metadata.broker.list": brokers})

    msg = kafkaStreams.map(lambda x: x[1])
    words = msg.flatMap(lambda line: line.split(" "))
    pairs = words.map(lambda word: (word, 1))
    running_counts = pairs.updateStateByKey(updateFunction)
    running_counts.pprint()
    kafkaStreams.transform(storeOffsetRanges).foreachRDD(printOffsetRanges)
    ssc.start()
    ssc.awaitTermination()


offsetRanges = []


def storeOffsetRanges(rdd):
    global offsetRanges
    offsetRanges = rdd.offsetRanges()
    return rdd


def printOffsetRanges(rdd):
    for o in offsetRanges:
        print (
            "%s %s %s %s %s" %
            (o.topic,
             o.partition,
             o.fromOffset,
             o.untilOffset,
             o.untilOffset -
             o.fromOffset))


if __name__ == '__main__':
    start()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

pyspark streaming+Kafka demo

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

java由於越界導致的報錯

pyspark Window 窗口函數

pyspark dataframe 自定義分區器

(待解決) java.io.EOFException: End of File Exception between local host

Mysql 必知必會（持續更新中）

Keras Embedding詳解

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結