195 Spark Streaming整合Kafka完成网站点击流实时统计

原創

2019-08-15 03:25

1.安装并配置zk

2.安装并配置Kafka

3.启动zk

4.启动Kafka

5.创建topic

bin/kafka-topics.sh --create --zookeeper node1.itcast.cn:2181,node2.itcast.cn:2181 \
--replication-factor 3 --partitions 3 --topic urlcount

6.编写Spark Streaming应用程序

package cn.itcast.spark.streaming

package cn.itcast.spark

import org.apache.spark.{HashPartitioner, SparkConf}
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}

object UrlCount {
  val updateFunc = (iterator: Iterator[(String, Seq[Int], Option[Int])]) => {
    iterator.flatMap{case(x,y,z)=> Some(y.sum + z.getOrElse(0)).map(n=>(x, n))}
  }

  def main(args: Array[String]) {
    //接收命令行中的参数
    val Array(zkQuorum, groupId, topics, numThreads, hdfs) = args
  
    //创建SparkConf并设置AppName
    val conf = new SparkConf().setAppName("UrlCount")
   
    //创建StreamingContext
    val ssc = new StreamingContext(conf, Seconds(2))
   
    //设置检查点
    ssc.checkpoint(hdfs)
   
    //设置topic信息
    val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap
 
    //重Kafka中拉取数据创建DStream
    val lines = KafkaUtils.createStream(ssc, zkQuorum ,groupId, topicMap, StorageLevel.MEMORY_AND_DISK).map(_._2)
  
    //切分数据，截取用户点击的url
    val urls = lines.map(x=>(x.split(" ")(6), 1))
   
    //统计URL点击量
    val result = urls.updateStateByKey(updateFunc, new HashPartitioner(ssc.sparkContext.defaultParallelism), true)
 
    //将结果打印到控制台
    result.print()
    ssc.start()
    ssc.awaitTermination()
  }
}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Cassandra学习笔记（2）

P.K. cassandra-cli的基本操作查看幫助文檔 help; 查看所有的鍵空間 show keyspaces; 創建鍵空間 create keyspace testkeyspace; 進入創建好的名爲root的

2020-06-30 15:52:59

Hive相关文章索引（1）

基本常識 Hive的UDF實現詳解 hive 中日誌的存放位置默認存儲與 /tmp/{user.name}目錄下 Hive insert into語句用法如果兩個表格的維度不一樣，將會插入錯誤 hive基本的操作語句

2020-06-30 15:52:59

hdfs体系架构及读写流程

HDFS體系架構 HDFS是一個主/從（Master/Slave）體系架構，由於分佈式存儲的性質，集羣擁有兩類節點NameNode 和DataNode。 NameNode（名字節點）：系統中通常只有一個，中心服務器的角色，管理存

Ezio_Auditore777

2020-06-23 20:11:50

hbase理论总结

HBase HBase – Hadoop Database，是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統，利用HBase 技術可在廉價 PC Server 上搭建起大規模結構化存儲集羣。 HBase簡介 HBase 是

Ezio_Auditore777

2020-06-23 16:56:12

HBase 学习笔记 - HBase1.3.1 常用API总结 ⭐️⭐️⭐️

HBase常用API總結 ❤️ 使用的HBase版本爲 1.31 1. pom.xml文件:  <dependencies> <dependency>

2020-06-22 10:22:55

Hadoop学习笔记(1) - Hadoop2.7环境搭建教程

一. 集羣規劃 1.1 集羣節點分配注意 : 可以根據自己電腦配置調整 , 如果配置比較低就少配置幾臺子節點主機名主機IP master 192.168.100.100 slave1 192.168.1

2020-06-22 09:51:23

HBase踩坑笔记 - 使用 MR 集成Hbase 报错 IllegalArgumentException: No columns to insert ⭐️⭐️⭐️⭐️

錯誤描述今天在使用 MapReduce 將 Person 表中的 name 字段的數據寫入到 Person_mr 表中報錯代碼如下 : Mapper package com.wangt.habse.mr01; im

2020-06-22 09:51:21

HBase学习笔记 - CDH下HBase和MR的集成 ⭐️⭐️⭐️

CDH 下 HBase和MR的集成 1.配置環境變量 ❤️ 注意每臺機器都要配置 vim /etc/profile 追加到profile文件尾部 : export HBASE_HOME=/opt/cloudera/parc

2020-06-22 09:51:20

docker 搭建 hadoop 集群平台

今天來搭建一套本地的hadoop 環境，做做準備。因爲手上只有一臺電腦，而且不想裝虛擬機，因此就使用 docker 來作爲運行平臺吧。起哥前幾天給我推薦了一個北大的公衆號，裏面有講一些關於 hadoop 環境搭建的文章。具體參考

2020-06-17 08:28:49

Hadoop中的序列化

1 簡介序列化和反序列化就是結構化對象和字節流之間的轉換，主要用在內部進程的通訊和持久化存儲方面。通訊格式需求 hadoop在節點間的內部通訊使用的是RPC，RPC協議把消息翻譯成二進制字節流發送到遠程節點，遠程節點再通過反序列化把二進

2020-06-09 19:05:15

Hadoop中的压缩（2） Mapper中使用压缩

1 輸入文件若輸入文件時壓縮過的，那麼被MR讀取時它們會被自動解壓。根據文件擴展名可以確定使用哪一個文件解碼器。TextInputFormat的getRecordReader方法，再進入LineRecordReader。 if (i

2020-06-09 19:05:15

Hadoop1.X中使用RPC

1.1 協議 import org.apache.hadoop.io.Text; import org.apache.hadoop.ipc.VersionedProtocol; public interface MyProtocol e

2020-06-09 19:05:15

MapReduce中的InputFormat（2）自定义

1 概述 Hadoop內置的輸入文件格式類有： 1）FileInputFormat<K,V>這個是基本的父類，自定義就直接使用它作爲父類。 2）TextInputFormat<LongWritable,Text>這個是默認的數據格式類。k

2020-06-09 19:05:15

MapReduce中如何处理跨行的Block和InputSplit

1 提出問題 Map最小輸入數據單元是InputSplit。比如對於那麼對於一個記錄行形式的文本大於128M時，HDFS將會分成多塊存儲（block），同時分片並非到每行行尾。這樣就會產生兩個問題： 1、Hadoop的一個Block默認是

2020-06-09 19:05:15

Hadoop中的FileStatus、BlockLocation、LocatedBlocks、InputSplit

1 FileStatus 1.1 包名 org.apache.hadoop.fs.FileStatus 1.2 格式 FileStatus{path=hdfs://192.X.X.X:9000/hadoop-2.7.1.tar.gz; i

2020-06-09 19:05:15

24小時熱門文章

最新文章

最新評論文章