原创 7.Spark Core 應用解析之RDD檢查點機制

Spark RDD 檢查點機制 Spark 中對於數據的保存除了持久化操作之外,還提供了一種檢查點的機制,類似於快照,就是將 DAG 中比較重要的中間數據做一個檢查點將結果存儲到一個高可用的地方(通常這個地方就是HDFS 裏面。 爲什

原创 6.Spark Core 應用解析之RDD持久化

1.概述 Spark是分佈式基於內存的數據處理引擎,它的一個基本功能是將RDD持久化到內存中。巧妙使用RDD持久化,甚至在某些場景下,可以將spark應用程序的性能提升10倍。對於迭代式算法和快速交互式應用來說,RDD持久化,是非常重

原创 4.Spark Core 應用解析之RDD常用轉換操作

        RDD中的所有轉換都是延遲加載的,也就是說,它們並不會直接計算結果。相反的,它們只是記住這些應用到基礎數據集(例如一個文件)上的轉換動作。只有當發生一個要求返回結果給Driver的動作時,這些轉換纔會真正運行。這種設計

原创 5.Spark Core 應用解析之RDD常用行動操作

        RDD 中的Action是數據執行部分,其通過執行count,reduce,collect等方法真正執行數據的計算部分 1.reduce(func) 通過func函數聚集RDD中的所有元素,這個功能必須是可交換且可並聯

原创 3.Spark Core 應用解析之RDD概念

1.RDD爲什麼會產生?         RDD是Spark的基石,是實現Spark數據處理的核心抽象。那麼RDD爲什麼會產生呢?         Hadoop的MapReduce是一種基於數據集的工作模式,面向數據,這種工作模式一般

原创 2.Spark 基礎解析之執行Spark程序

1 執行第一個Spark程序 該算法是利用蒙特·卡羅算法求PI /home/hadoop/software/spark/bin/spark-submit \ --class org.apache.spark.examples.Spar

原创 1.Spark 基礎解析之概述及集羣安裝

1 Spark 概述 1.1 什麼是Spark? 官網:http://spark.apache.org         Spark是一種快速、通用、可擴展的大數據分析引擎,2014年2月成爲Apache頂級項目,由Scala語言編

原创 SparkSteaming 保存結果數據(MySQL/Redis/HBase)

        實際開發中,spark 不僅可以用來離線分析,也可以用來實時分析,最終數據存儲在哪,通常是根據實際業務場景來決定的,一般關係型數據庫是mysql,非關係型數據庫是redis或hbase。前面三種存儲位置,不管是哪一種需

原创 SpringBoot 集成 Redis

java 中使用操作redis,redis官方提供的工具包是jedis,springboot 集成 redis,依然使用redis 1.項目結構 springboot-redis src main java com

原创 Spark Hive 導入數據到 HBase

導讀:          如何使用MapReduce將textfile、rcfile格式的Hive表數據導入到HBase,上一篇博客中已經做了介紹 MapReduce Hive 導入數據到 HBase,MR這種方式有兩個缺點,一是當數

原创 MapReduce Hive 導入數據到 HBase

導讀: 業務需求,需要將Hive中數據導入到HBase,筆者先用Java API 的方式開發了一版,但是在測試過後,效果不是很理想,如果數據量不大的情況下,可以使用,如果數據量成百上千萬,甚至上億,數據導入效率太低,時間太長,所以後面

原创 Scala 編程—第七節:類和對象(二)

前言:         類和對象第二節,主要介紹:單例對象、伴生對象與伴生類、apply方法、抽象類 1.單例對象 Java語言中,如果想直接使用類名點的方式調用方法或屬性,直接用static修飾即可。但Scala語言不支持靜態成員,

原创 Scala 編程——第六節:類和對象(一)

前言:        類和對象的相關知識比較多,筆者分爲兩篇來介紹,本篇即第一篇主要介紹類定義及對象創建、getter/setter、類主構造器、輔助構造器。 1.類定義及創建對象 1.1 類 定義類 // 採用關鍵字class定義 c

原创 Scala 編程——第五節:函數與閉包

1.函數定義 如下,定義一個函數,用來比較兩數大小得出最大值 def max(x: Int, y: Int): Int = { if (x> y) x else y } 以上述定義的函數爲例,看下scala函數的基本構成 ma

原创 Scala 編程——第四節:集合操作(List、Set、Map、Tuple、Option)

1.列表 1.1 List定義及特點 // 字符串類型List scala> val language = List("java", "scala", "python") language: List[String] = List(jav