原创 spark2.x 讀寫cassandra

spark2.x 連接 cassandra 示例 import org.apache.spark.SparkConf import org.apache.spark.sql.{SaveMode, SparkSession} def

原创 flume 監聽linux下的文件夾下所有文件,通過spark批量讀取數據

flume 監聽linux下的文件夾下所有文件,並將文件內容存入到hdfs,生成多個以時間戳結尾的文件,通過spark批量讀取數據。 配置 flume-spooldir.conf ### define agent a3.sou

原创 spark sql源碼淺析

spark 源碼簡單分析 sparksql 作爲spark1.0所支持的lib庫中唯一新增加的lib庫,可見其重要地位。 分析內容: spark sql執行流程; hive on spark 和 hive on hadoop 的比較

原创 RDD基礎

RDD(彈性分佈式數據集)作爲spark的核心概念,RDD其實就是一個不可變的分佈式的元素集合 什麼是彈性: 在任何實收都能進行重新計算,當保存RDD數據的一臺機器掛了,spark還可以使用這種特性來重新計算出丟掉的分區,對用戶也完

原创 RDD簡介,spark-shell,spark-submit提交任務簡單示例

spark RDD簡介 彈性分佈式數據集RDD是Spark框架中的核心概念。可以將RDD視作數據庫中的一張表。其中可以保存任何類型的數據。Spark將數據存儲在不同分區上的RDD之中。 RDD可以幫助重新安排計算並優化數據處理過程

原创 scala基本操作分解實戰

scala基本操作分解 scala> import scala.io.Source import scala.io.Source scala> val lines = Source.fromFile("./TestFile.txt")

原创 大數據分析常見算法

大數據分析主要依靠機器學習和大規模計算。機器學習包括監督學習、非監督學習、強化學習等,而監督學習又包括分類學習、迴歸學習、排序學習、匹配學習等。分類是最常見的機器學習應用問題,比如垃圾郵件過濾、人臉檢測、用戶畫像、文本情感分析、網頁歸