原创 Scala中的數組介紹與使用

1 定長數組 定義一個長度不變的數組,可以使用Scala中的Array //定義一個Int類型的數組,元素的初始值爲0 scala> var nums = new Array[Int](10) nums: Array[Int] =

原创 修改Spark-shell日誌打印級別並使用Spark-shell和Spark-submit提交Sparkstream程序

1. 修改Spark-shell日誌打印級別 如果覺得 shell 中輸出的日誌信息過多而使人分心,可以調整日誌的級別來控制輸出的信息量。你需要在 conf 目錄下創建一個名爲 log4j.properties 的文件來管理日誌設

原创 Kafka出現異常kafka.common.FailedToSendMessageException: Failed to send messages after 3 tries.解決

java客戶端連接到kafka出現kafka.common.FailedToSendMessageException: Failed to send messages after 3 tries. 下午自己在java客戶端連接到k

原创 linux下Hbase安裝(CDH)

hbase安裝 下載地址:http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.7.0.tar.gz 解壓:tar -zxvf hbase-1.2.0-cdh5.7

原创 Scala中映射和元組

1 Scala中映射的操作 1.1構造映射 下列代碼構建了一個不可變的Map[String,Int],其值不能改變 scala> val stores = Map("Alice" -> 10,"Bob" -> 3,"Cindy"

原创 sparkStream之Window Operations

Window Operations可以設置窗口的大小和滑動窗口的間隔來動態的獲取當前Steaming的允許狀態。基於窗口的操作會在一個比 StreamingContext 的批次間隔更長的時間範圍內,通過整合多個批次的結果,計算出

原创 使用kafka消費flume的數據

本篇文章將在Apache Flume介紹和使用案例三這篇文章的基礎上將logger sink修改爲kafka sink(即整合flume到kafka完成實時數據的採集) 1. 先說一下,爲什麼要使用 Flume + Kafka?

原创 SparkStream實戰之黑名單過濾

package com.zgw.spark import org.apache.log4j.{Level, Logger} import org.apache.spark.SparkConf import org.apache.

原创 SparkStream整合SparkSql統計wordCount

package com.zgw.spark.streaming import org.apache.log4j.{Level, Logger} import org.apache.spark.SparkConf import o

原创 Spark無狀態和有狀態轉化操作介紹

1. 無狀態轉化操作 無狀態轉化操作就是把簡單的RDD轉化操作應用到每個批次上,也就是轉化DStream中的每一個RDD。部分無狀態轉化操作列在了下表中。注意,針對鍵值對的DStream轉化操作(比如 reduceByKey())