pyspark拉取kafka數據

原創

2018-11-08 11:01

1.創建kafka的topic:

./kafka-topics.sh --create --zookeeper xxxx:2181,xxxx:2181 --replication-factor 3 --partitions 3 --topic test

2.pyspark上傳具有spark客戶端的節點

vim ttt.py

# encoding:utf-8

from pyspark import SparkContext
from pyspark import SparkConf
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils


def start():
    conf = SparkConf().set("spark.python.profile", "true").set("spark.io.compression.codec", "snappy")#.setMaster('local[*]')
    conf.setAppName('spark-test')
    sc = SparkContext(conf=conf)
    ssc=StreamingContext(sc,6)

    brokers="xxx:6667,xxx:6667,xxx:666"
    topic='test'
    kafkaStreams = KafkaUtils.createDirectStream(ssc,[topic],kafkaParams={"metadata.broker.list": brokers})
    result=kafkaStreams.map(lambda x:(x[1],1)).reduceByKey(lambda x, y: x + y)
    kafkaStreams.transform(storeOffsetRanges).foreachRDD(printOffsetRanges)
    result.pprint()
    ssc.start()
    ssc.awaitTermination()

offsetRanges = []

def storeOffsetRanges(rdd):
    global offsetRanges
    offsetRanges = rdd.offsetRanges()
    return rdd

def printOffsetRanges(rdd):
    for o in offsetRanges:
        print "%s %s %s %s %s" % (o.topic, o.partition, o.fromOffset, o.untilOffset,o.untilOffset-o.fromOffset)

if __name__ == '__main__':
    start()

3.zip ttt.py ./ttt.py

4.提交程序：
  spark-submit --master yarn-cluster --driver-memory 1g --executor-memory 1g --num-executors 1 --executor-cores 1 --jars spark-streaming-kafka-0-8-assembly_2.11-2.3.1.jar  --py-files ttt.zip ttt.py

5.新開客戶端 
./kafka-console-producer.sh --broker-list xxx:6667,xxx:6667,xxx:6667 --topic test

end

有問題加QQ羣：877769335

或者用QQ掃描二維碼加羣：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

數據挖掘、數據分析以及大數據之間的區別有哪些？

進入大數據時代，和數據相關的名詞都被人們津津樂道。那數據挖掘、數據分析以及大數據之間有哪些區別呢？數據挖掘是發現信息以及收集數據的過程；數據分析則是將現有數據進行歸納以及分析得出相應結論的過程。而大數據則更加關注數據本身，重要表現就是數據

2020-06-29 15:58:26

淺談公司大數據平臺的數據治理

近幾年大數據風生水起，隨着大數據業務的不斷開展，各大互聯網公司包括一些傳統企業都越老越重視數據價值的挖掘。一、數據治理模型在公司的日常運行中，各種數據分析和數據挖掘技術，爲公司發展決策和業務開展提供數據支持。以某互聯網公司爲例

2020-07-07 05:06:34

sql時間段取並集、合併

問題是計算通道的總開放時長，只要有任意一個終端開放通道就算開放，難點在於各種終端開放時間重疊包含。三種思路： 1、先取排序後的第一條數據的時間段爲基準，然後兩兩比較，累加時間。 2、把兩兩時間串起來，有交集的時間段，直接取最小時間至最

2020-07-06 15:56:16

Java歸併排序（遞歸實現）

--遞歸實現 public class HelloWorld { public static void showArray(int[] array){ for(int i:array){

2020-07-06 15:56:16

spark怎麼分配資源

spark分配資源概述爲啥要研究spark資源分配 spark中最基本和最有效率的優化方式就是給spark程序分配更多的資源，所以這次講如何更合適的給你的spark程序分配資源 spark分配資源主要調整哪一些資源 /home/zho

2020-07-04 14:06:26

spark--使用MapPartitions

什麼是MapPartitions? 簡單的理解就是以分區爲單位的map函數，假如該分區有10000條數據，如果調用map函數的話，每次調用傳入一條數據，也就是需要調用10000次。但是如果調用MapPartitions函數的話，只需要調用

2020-07-04 13:24:11

presto指標監控

概述因爲presto自帶的web-ui界面侷限性比較多，所以最近準備通過分析presto的相關指標來搭建一個presto的監控平臺。主要用於presto基本信息的監控，性能信息的查詢，異常預警。所以該篇及接下來的這幾篇文章主要針對pre

2020-07-04 13:24:11

大數據開發公衆號

專注於大數據相關框架的總結和原理分析

2020-07-04 13:24:11

presto使用及介紹

什麼是presto presto是一個開源的分佈式的查詢引擎，基於內存，它本身不接入數據，可以連接多種數據源，例如 Hive ,Mysql,Kafka,MongeDB等，一條Presto查詢可以將多個數據源進行合併查詢。 preto適合O

2020-07-04 13:24:11

01-java基礎

Java基礎語法 1、Java開發環境搭建 2、HelloWorld案例 3、註釋、關鍵字、標識符 4、數據（數據類型、常量） 01.java語言概述 A: java語言概述 a: Java是sun公司開發的一門編

2020-07-02 16:53:08

centos7 無法聯網可能的解決方案

如果出現無法聯網的問題然後輸入 systemctl stop NetworkManagersystemctl disable NetworkManagerservice network restart

专注大数据开发

2020-06-30 08:23:34

將虛擬機本地csv文件導入hive

1、首先，先將windows系統下的csv文件上傳到虛擬機目錄中。我的是在/my_dbdata/下 2、啓動hive，我提前創建了一個名爲toutiao的hive業務數據庫。創建時使用的命令： create database i

2020-06-29 07:09:24

centos7使用清華鏡像安裝miniconda3並且創建新的環境

1、鏡像下載安裝包 wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh 如果之前沒有安裝過

2020-06-29 07:09:24

yum安裝mysql57

參考博客：博客1（安裝），博客2（密碼修改，以及安裝好之後安裝包刪除）

2020-06-29 07:09:08

ERROR setFile(null,true) call failed.xxx hive.log (Permission denied)

借鑑博客參考博客部分內容：我的解決辦法和參考博客基本一致。切換用戶：su root

2020-06-29 07:09:07

24小時熱門文章

最新文章

最新評論文章