195 Spark Streaming整合Kafka完成網站點擊流實時統計

原創

Dumas_

2019-08-15 03:25

1.安裝並配置zk

2.安裝並配置Kafka

3.啓動zk

4.啓動Kafka

5.創建topic

bin/kafka-topics.sh --create --zookeeper node1.itcast.cn:2181,node2.itcast.cn:2181 \
--replication-factor 3 --partitions 3 --topic urlcount

6.編寫Spark Streaming應用程序

package cn.itcast.spark.streaming

package cn.itcast.spark

import org.apache.spark.{HashPartitioner, SparkConf}
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}

object UrlCount {
  val updateFunc = (iterator: Iterator[(String, Seq[Int], Option[Int])]) => {
    iterator.flatMap{case(x,y,z)=> Some(y.sum + z.getOrElse(0)).map(n=>(x, n))}
  }

  def main(args: Array[String]) {
    //接收命令行中的參數
    val Array(zkQuorum, groupId, topics, numThreads, hdfs) = args
  
    //創建SparkConf並設置AppName
    val conf = new SparkConf().setAppName("UrlCount")
   
    //創建StreamingContext
    val ssc = new StreamingContext(conf, Seconds(2))
   
    //設置檢查點
    ssc.checkpoint(hdfs)
   
    //設置topic信息
    val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap
 
    //重Kafka中拉取數據創建DStream
    val lines = KafkaUtils.createStream(ssc, zkQuorum ,groupId, topicMap, StorageLevel.MEMORY_AND_DISK).map(_._2)
  
    //切分數據，截取用戶點擊的url
    val urls = lines.map(x=>(x.split(" ")(6), 1))
   
    //統計URL點擊量
    val result = urls.updateStateByKey(updateFunc, new HashPartitioner(ssc.sparkContext.defaultParallelism), true)
 
    //將結果打印到控制檯
    result.print()
    ssc.start()
    ssc.awaitTermination()
  }
}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

195 Spark Streaming整合Kafka完成網站點擊流實時統計

linux安裝cuda和cudnn

模擬手機設備：使用 Playwright 實現移動端自動化測試

Mellanox網卡開啓SR-IOV

測試人員都是畫畫大神，讓我看看誰還不會用代碼圖？

Object.values()對象遍歷

我拍了拍Redis，被移出了羣聊···

網絡現代化通向雲原生應用的高速公路

面試官：說說你對序列化的理解

我宣佈，這是我找到的史上AI最全論文體系！

185 RDD API - Action

195 Spark Streaming整合Kafka完成網站點擊流實時統計

191 DStream概述

197 Spark DataFrames概述

144 Mahout介紹

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結