原创 iterator與iterable接口之間的區別

iterator與iterable接口之間的區別 1.區別 Iterator是迭代器類,而Iterable是爲了只要實現該接口就可以使用foreach,進行迭代. Iterable中封裝了Iterator接口,只要實現了Itera

原创 log4j+flume+kafka模擬Spark Streaming流式處理數據

log4j+flume+kafka模擬Spark Streaming流式處理數據 1. java 編程模擬日誌產生 /** * 模擬Logger 產生日誌 */ public class LoggerGenerator {

原创 SparkStreaming 集成Kafka詳解

SparkStreaming 集成Kafka詳解 1.概述 SparkStream集成Kafa有兩種方式,Receiver-based Approach與Direct Approach,在集成的時候得注意spark版本與kafka的版

原创 SparkStreaming 集成Flume詳解

SparkStreaming 集成Flume詳解 1.Flume-style Push-based Approach 1).push方式:flume agent的sink需要使用avro,spark application是一個rec

原创 Spark Streaming 基礎

Spark Streaming 基礎 1. SparkStreaming概述 1).Spark Streaming用於流式數據的處理,Spark Streaming有高吞吐量和容錯能力強等特點。 2).他導入kafka、flume、h

原创 kafka java 編程

kafka java編程 1.引入kafka <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11</artif

原创 SparkSq日誌分析項目實踐

Spark 日誌分析項目實踐總結 1. 概述 1). 用戶日誌:用戶每次訪問網站所有的行爲(點擊、瀏覽、訪問、搜索)我們可以通過對日誌的分析獲取網站頁面的訪問量、網站的黏性、用戶行爲日誌、推薦 2). 用戶行爲日誌內容 3). 日誌

原创 flume與kafka實戰配置

flume與kafka實戰配置 1. 概述 在實戰中,產生日誌文件的服務器和hadoop集羣一般不是在同一個服務器上,這時需要使用Flume avro架構模型,在web服務器上搭建一個flume,在hadoop集羣上搭建一個flume

原创 kafka基礎

kafka基礎 1.概述 Kafka 是一個基於分佈式的消息發佈-訂閱系統,它被設計成快速、可擴展的、持久的。Kafka 在主題當中保存消息的信息。生產者向主題寫入數據,消費者從主題讀取數據。 2.關鍵字解析 Broker Kafk

原创 Spark運行的4種模式

Spark 運行的4種模式 1. 4種運行模式概述圖 2. 不同的提交參數說明 ./bin/spark-submit \ //主類入口 --class <main-class> \ // 指定appname

原创 SparkSql處理日誌後保存到mysql中

SparkSql處理後的數據保存到Mysql中 1.原始JDBC object SqlUtils { /** * 獲取連接 */ def getConnection():Connection = {

原创 一張圖詳解maven

一張圖詳解maven 1. maven 概述 Maven是一個項目管理工具,它包含了一個項目對象模型 (Project Object Model),一組標準集合,一個項目生命週期(Project Lifecycle),一個依賴管理系統

原创 Rdd與DataFrame互操作

Rdd與DataFrame互操作 1. spark通過StructType直接指定Schema object StructTypeBySchema { def main(args: Array[String]): Unit

原创 Spark SQL 外部數據源

Spark SQL 外部數據源 1. 概述 外部數據源API方便快速從不同的數據源(json,parquet,rdbms)引入處理數據,經過混合處理,寫回到指定文件系統上去。 2. 操作parquet文件數據 讀數據 spark

原创 SparkSQL整合 HIVE

SparkSQL整合 HIVE 安裝hive(配置好) 將配置好的hive-site.xml放入$SPARK-HOME/conf目錄下 將mysql-xxx-connector-xx.jar放到spark集羣中節點的lib