台部落GYT0313

前言本節詳細介紹Scala中的列表，和很多常用操作。 1. List字面量列表和數組非常像，不過有兩個重要區別：列表是不可變的列表的結構是遞歸的（數組是平的） 2. List類型跟數組一樣，列表是同構的：所有元素必須

2019-06-17 23:22:12

前言該節簡單介紹樣例類（case class）和模式匹配（pattern matching），以及各種模式、密封類（sealed class）、Option類型。所有代碼： GitHub：https://github.com/

2019-06-15 17:50:51

前言學習Spark的Structured Streaming（結構化流）。官網：http://spark.apache.org/docs/latest/structured-streaming-programming-guid

2019-06-10 19:06:09

前言繼上篇博客：掌握Mysql數據庫SQL語言的基本操作 MySQL數據備份與數據還原該篇更爲深入的瞭解MySQL的相關操作。博客中所有代碼在博客最後可見。 1. 事務事務的概念就不詳細解釋了。。。簡單來說就是一個

2019-06-10 19:06:09

前言數據來源於成都市公共數據開放平臺。數據集：http://www.cddata.gov.cn/odweb/catalog/catalogDetail.htm?cata_id=fRa2EWB1EeeM9JrcteruXg434

2019-06-10 19:06:09

前言首先會使用Java開發一個日誌產生器，使用Flume收集此信息到Kafka，然後Spark Streaming 從Kafka讀取消息。完整項目代碼： https://github.com/GYT0313/Spark-Learn

2019-05-15 01:29:24

因爲有一部分的區域佔比很小，畫圖時緊貼在一起，所以會造成重疊。博主經過計算後的Series 是有序的，會出現最後一部分完全重疊。如：可以使用sample 方法隨機取樣，不過仍然有可能造成重疊。如：data = data.s

2019-05-15 01:29:24

前言文章很長很長，建議配合右邊的目錄。。。博主在學習大數據過程中也寫過各種組件的安裝步驟，但是比較零散。最近，在學習Spark Streaming中需要開啓很多大數據服務，筆記本搭建虛擬機的集羣已經帶不動程序。正好，學校配了臺高

2019-05-14 02:39:03

前言確保你已經安裝了flume。安裝參考：https://blog.csdn.net/qq_38038143/article/details/90042356 1. netcat-memory-logger source類型是ne

2019-05-14 02:39:03

無論使用哪種方式，flume的sink 一定要是avro格式。。。這裏給出 pom.xml 依賴代碼： <properties> <scala.version>2.11.8</scala.version> <ka

2019-05-14 02:39:03

報錯1 2019-05-10 08:58:46,802 (conf-file-poller-0) [ERROR - org.apache.flume.node.PollingPropertiesFileConfigurationPro

2019-05-10 23:17:57

報錯在IDEA中運行報如下錯： Caused by: java.util.concurrent.ExecutionException: java.lang.AbstractMethodError: org.apache.avro.s

2019-05-09 22:09:26

1. 下載 http://www.apache.org/dyn/closer.lua/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz 2. 安裝JDK 確保你已經按照了JDK-1.8+ 3. 安裝F

2019-05-09 22:09:26

前言該博客記錄博主在使用IDEA+Maven構建Spark相關程序過程中遇到的問題、和總結，不定期添加。歡迎在評論下補充。。。總結在IDEA中測試好之後，準備提交到spark-submit時，會發生各種依賴錯誤，這種情況是本

2019-05-09 22:09:26

前言本章節介紹如何將Spark Streaming 和Kafka整合。即從Kafka主題中讀取數據，並且是實時流的。博主的Kafka是集羣，如果沒有，也可以不適用集羣。 1. 安裝zookeeper 參考：https://blog

2019-05-08 20:52:13