原创 13-使用列表

前言 本節詳細介紹Scala中的列表,和很多常用操作。 1. List字面量 列表和數組非常像,不過有兩個重要區別: 列表是不可變的 列表的結構是遞歸的(數組是平的) 2. List類型 跟數組一樣,列表是同構的:所有元素必須

原创 12-樣例類和模式匹配

前言 該節簡單介紹樣例類(case class)和模式匹配(pattern matching),以及各種模式、密封類(sealed class)、Option類型。 所有代碼: GitHub:https://github.com/

原创 11-Structured Streaming -- Scala版本

前言 學習Spark的Structured Streaming(結構化流)。 官網:http://spark.apache.org/docs/latest/structured-streaming-programming-guid

原创 MySQL深入--事務、變量、觸發器、分支結構函數和存儲過程

前言 繼上篇博客: 掌握Mysql數據庫SQL語言的基本操作 MySQL數據備份與數據還原 該篇更爲深入的瞭解MySQL的相關操作。 博客中所有代碼在博客最後可見。 1. 事務 事務的概念就不詳細解釋了。。。 簡單來說就是一個

原创 Python數據分析及可視化案例--2018成都市公共租賃住房家庭(個人)配租信息分析

前言 數據來源於成都市公共數據開放平臺。 數據集:http://www.cddata.gov.cn/odweb/catalog/catalogDetail.htm?cata_id=fRa2EWB1EeeM9JrcteruXg434

原创 Spark Streaming 整合Flume 和Kafka

前言 首先會使用Java開發一個日誌產生器,使用Flume收集此信息到Kafka,然後Spark Streaming 從Kafka讀取消息。 完整項目代碼: https://github.com/GYT0313/Spark-Learn

原创 Python中Matplotlib.pyplot 繪畫餅圖出現標籤重疊

因爲有一部分的區域佔比很小,畫圖時緊貼在一起,所以會造成重疊。 博主經過計算後的Series 是有序的,會出現最後一部分完全重疊。 如: 可以使用sample 方法隨機取樣,不過仍然有可能造成重疊。 如:data = data.s

原创 非常詳細、全面的大數據組件安裝及IDEA開發環境搭建 - 從虛擬機安裝開始搭建虛擬機集羣

前言 文章很長很長,建議配合右邊的目錄。。。 博主在學習大數據過程中也寫過各種組件的安裝步驟,但是比較零散。 最近,在學習Spark Streaming中需要開啓很多大數據服務,筆記本搭建虛擬機的集羣已經帶不動程序。正好,學校配了臺高

原创 flume的幾種配置方式--多種source、多種sink

前言 確保你已經安裝了flume。 安裝參考:https://blog.csdn.net/qq_38038143/article/details/90042356 1. netcat-memory-logger source類型是ne

原创 Spark Streaming 整合Flume -- push 和 pull 方式

無論使用哪種方式,flume的sink 一定要是avro格式。。。 這裏給出 pom.xml 依賴代碼: <properties> <scala.version>2.11.8</scala.version> <ka

原创 Spark Streaming 整合Flume 使用Pull方式,啓動Flume報合集

報錯1 2019-05-10 08:58:46,802 (conf-file-poller-0) [ERROR - org.apache.flume.node.PollingPropertiesFileConfigurationPro

原创 Spark Streaming整合Flume報錯 - java.lang.AbstractMethodError

報錯 在IDEA中運行報如下錯: Caused by: java.util.concurrent.ExecutionException: java.lang.AbstractMethodError: org.apache.avro.s

原创 Flume-1.9.0的安裝和第一次啓動

1. 下載 http://www.apache.org/dyn/closer.lua/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz 2. 安裝JDK 確保你已經按照了JDK-1.8+ 3. 安裝F

原创 總結使用IDEA+Maven+Spark創建項目在本地運行及提交到服務器遇到的各種問題

前言 該博客記錄博主在使用IDEA+Maven構建Spark相關程序過程中遇到的問題、和總結,不定期添加。 歡迎在評論下補充。。。 總結 在IDEA中測試好之後,準備提交到spark-submit時,會發生各種依賴錯誤,這種情況是本

原创 Spark Streaming 與 Kafka 的整合

前言 本章節介紹如何將Spark Streaming 和Kafka整合。即從Kafka主題中讀取數據,並且是實時流的。 博主的Kafka是集羣,如果沒有,也可以不適用集羣。 1. 安裝zookeeper 參考:https://blog