內容簡介：

一、Spark初現

二、Spark—大數據Big Data處理框架

三、Spark與Hadoop之比較

一、Spark初現

Spark是一個通用的並行計算框架，由UCBerkeley的AMP實驗室開發。Spark基於map reduce 算法模式實現的分佈式計算，擁有Hadoop MapReduce所具有的優點；但不同於Hadoop MapReduce的是Job中間輸出和結果可以保存在內存中，從而不再需要讀寫HDFS，節省了磁盤IO耗時，號稱性能比Hadoop快100倍。

Spark性能比Hadoop快原因分解：
(1)傳統Hadoop數據抽取運算模型是：

ps:數據的抽取運算基於磁盤，中間結果也是存儲在磁盤上。MR運算伴隨着大量的磁盤IO。
(2)Spark 則使用內存代替了傳統HDFS存儲中間結果:

簡述：第一代的Hadoop完全使用Hdfs存儲中間結果，第二帶的Hadoop加入了cache來保存中間結果。而Spark則基於內存的中間數據集存儲。可以將Spark理解爲Hadoop的升級版本，Spark兼容了Hadoop的API，並且能夠讀取Hadoop的數據文件格式，包括HDFS，Hbase等。

3.Spark架構圖：

(1)Bagel(pregel on spark)：Bagel是基於Spark的輕量級的Pregel(Pregel是Google鼎鼎有名的圖計算框架)的實現。

(2)Shark(Hive on Spark)：Shark基本上就是在Spark的框架基礎上提供和Hive一樣的HiveQL命令接口。可以理解爲Shark On Spark，就是Hive On Hadoop，兩者地位是一樣的。ps：Shark可以通過UDF用戶自定義函數實現特定的數據分析學習算法，使得SQL數據查詢和運算分析功能結合在一起（最大化RDD的重複使用）。

(3)Streaming(Spark):Spark Streaming是構建在Spark上的處理實時數據的框架。其基本原理是將Stream數據分成小的時間片段（幾秒），以類似batch批處理的方式來處理小部分數據。

(4)RDD(Resilient Distributed Dataset，彈性分佈式數據集):RDD是Spark操縱數據的一個高度抽象，即Spark所操作的數據集都是包裝成RDD來進行操作的，例如Spark可以兼容處理Hadoop的HDFS數據文件，那麼這個HDFS數據文件就是包裝成Spark認識的RDD來完成數據抽取和處理的。RDD的一個英文定義是：RDDs are fault-tolerant, parallel data structures that let users explicitly persist intermediate results in memory, control their partitioning to optimize data placement, and manipulate them using a rich set of operators. 用我薄弱的英語能力翻譯一下就是：RDD是一個能夠讓用戶可以準確的將中間結果數據持久化到內存中的一個可用錯的並行數據結構，可以控制(RDD數據集)分區，優化數據存儲，並且有一組豐富的操作集可以操作這份數據。ps:RDD是Spark的一個核心抽象，Spark的數據操作都是基於RDD來完成。

(5)Map Reduce：MR 是Spark可以支撐的運算模式，比傳統的Hadoop MR的性能更好，並且操作集更加豐富。Spark的MR計算引擎的架構圖：

ps:圖中的FP不知道是什麼，誰知道可以告訴我一下哈！

(6)Spark的運行模式：apache Mesos和YARN計算兩套資源管理框架，Spark最初設計就是跑在這兩個資源管理框架之上的，至於Spark的本地運行模式和獨立運行模式則是方便了調試。（至於圖中的EC2，應該屬跑在亞馬遜雲端的資源管理引擎上的吧，我猜？)。YARN資源管理框架也是Hadoop2.0的產物，大大優化了傳統Hadoop通過JobTracker和TaskTracker來調度計算任務的方式，使集羣更加平臺化，可以部署多中計算引擎，比如傳統的Hadoop MR和Spark都可以跑在同一個集羣上，YARN這類資源管理框架出現之前是做不到的。

(7)Spark數據的存儲：Spark支持多種數據底層存儲，這點比Hadoop支持的數據文件格式廣泛的多。Spark可以兼容HDFS，Hbase,Amazon S3等多種數據集，將這些數據集封裝成RDD進行操作。

4.Spark照比傳統Hadoop MR的改進點：
(1)迭代運算，一次創建數據集。多次使用，減少了IO的開銷;(2)允許多種計算模型（包含map-reduce）;(3)支持非OO式算法實現，對機器學習算法，圖計算能力有很好的支持。

5.Spark的適用場景：
Spark立足於內存計算，從而不再需要頻繁的讀寫HDFS，這使得Spark能更好的適用於：
(1) 迭代算法，包括大部分機器學習算法Machine Learning和比如PageRank的圖形算法。
(2) 交互式數據挖掘，用戶大部分情況都會大量重複的使用導入RAM的數據（R、Excel、python）
(3) 需要持續長時間維護狀態聚合的流式計算。

二、Hadoop YARN 基礎知識梳理

1.Yarn是什麼：
Yarn (Hadoop MapReduceV2)是Hadoop 0.23.0版本後新的map-reduce框架或這更準確的說是框架容器。
架構圖：

名詞解釋：
(1) ResourceManager:以下簡稱RM。YARN的中控模塊，負責統一規劃資源的使用。
ps:ResourceManager是YARN資源控制框架的中心模塊，負責集羣中所有資源的統一管理和分配。它接收來自NM的彙報，建立AM，並將資源派送給AM。
(2) NodeManager:以下簡稱MM。YARN中的資源結點模塊，負責啓動管理container。
(3) ApplicationMaster以下簡稱AM。YARN中每個應用都會啓動一個AM，負責向RM申請資源，請求NM啓動container，並告訴container做什麼事情。
(4) Container:資源容器。YARN中所有的應用都是在container之上運行的。AM也是在container上運行的，不過AM也是在Container上運行的，不過AM的container是向RM申請的。

簡述：新一代的YARN容器框架，是傳統的MR Hadoop容器框架的升級版本，之前的MR部署架構依賴於JobTracker和TaskTracker的交互模式，而新一代的YARN容器框架，則採用了ResourceManager和NodeManager的交互模式，更高層次的抽象和架構設計，是的YARN容器框架能夠支撐多種計算引擎運行，包括傳統的Hadoop MR和現在的比較新的SPARK。

2.Hadoop YARN產生的背景：
(1)直接源於MRv1(傳統的Hadoop MR)如下幾個缺陷：
受限的擴展性；單點故障；難以支持MR之外的計算； (2)多計算框架各自爲戰，數據共享困難。比如MR(離線計算框架)，Storm實時計算框架，Spark內存計算框架很難部署在同一個集羣上，導致數據共享困難。
簡述：Hadoop Yarn的出現則解決了上述問題。

3.Hadoop 1.0到Hadoop 2.0(基於YARN)的演變：

簡述：hadoop2.0在傳統的MapReduce計算框架和存儲框架HDFS之間加了一個YARN層，使得集羣框架可以支撐多中計算引擎，包括上文中的SPARK。

4.以Yarn爲核心的Hadoop2.0生態系統：

簡述：圖片簡單明瞭，不多說了。

5.運行在YARN上的計算框架：
(1)離線計算框架：MapReduce
(2)DAG計算框架：Tez
(3)流式計算框架：Storm
(4)內存計算框架：Spark
(5)圖計算框架：Giraph，Graphlib

6.Spark On Yarn的調度管理：

7.傳統MapReduce 在YARN上的調度：

參考文獻：http://blog.csdn.net/lantian0802/article/details/22507525

二、Spark—大數據Big Data處理框架

Spark是一個針對超大數據集合的低延遲的集羣分佈式計算系統，比MapReducer快40倍左右。

　　Spark是hadoop的升級版本，Hadoop作爲第一代產品使用HDFS，第二代加入了Cache來保存中間計算結果，並能適時主動推Map/Reduce任務，第三代就是Spark倡導的流Streaming。

　　Spark兼容Hadoop的APi，能夠讀寫Hadoop的HDFS HBASE 順序文件等。

　　傳統Hadoop如下圖性能慢原因有：磁盤IO 複製和序列化等等，涉及圖中的HDFS

而在Spark中，使用內存替代了使用HDFS存儲中間結果：

Spark架構圖

Spark的編程模型

彈性的分佈數據集(RDD) ：分佈式對象集合能夠跨集羣在內存中保存。多個並行操作，失敗自動恢復。

使用內存集羣計算，內存訪問要比磁盤快得多。有Scala Java Python API,能夠從Scala和Python訪問。

下面是一個簡單的對日誌log計數的代碼：

/*** SimpleJob.scala ***/

import spark.SparkContext
import SparkContext._

object SimpleJob {
def main(args: Array[String]) {

val logFile = "/var/log/syslog" // Should be some file on your system
val sc = new SparkContext("local", "Simple Job", "$YOUR_SPARK_HOME",
List("target/scala-2.9.3/simple-project_2.9.3-1.0.jar"))
val logData = sc.textFile(logFile, 2).cache()
val numAs = logData.filter(line => line.contains("a")).count()
val numBs = logData.filter(line => line.contains("b")).count()
println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
}
}

運行原理圖：

當進行filter操作是，是一種transformed RDD，RDD跟蹤這種轉換，當有數據丟失失敗時，重新計算得到這個數據。

Spark支持物流logistic表達式，如下圖：

物流表達式相比Hadoop的遍歷性能：

支持以下數據分析操作：

Spark流處理

以推流方式處理數據：

Shark

Shark是基於Spark上的“Hive”，看看基於hadoop的Hive：

而Shark的結構圖：

Hive是記錄每行記錄一個對象，而shark是每列記錄：

執行SQL時間對比：

轉自：http://www.jdon.com/bigdata/spark.html

三、Spark與Hadoop之比較

什麼是Spark

Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的並行計算框架，Spark基於map reduce算法實現的分佈式計算，擁有Hadoop MapReduce所具有的優點；但不同於MapReduce的是Job中間輸出和結果可以保存在內存中，從而不再需要讀寫HDFS，因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的map reduce的算法。其架構如下圖所示：

Spark與Hadoop的對比

Spark的中間數據放到內存中，對於迭代運算效率更高。
- Spark更適合於迭代運算比較多的ML和DM運算。因爲在Spark裏面，有RDD的抽象概念。
Spark比Hadoop更通用。
- Spark提供的數據集操作類型有很多種，不像Hadoop只提供了Map和Reduce兩種操作。比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup,mapValues, sort,partionBy等多種操作類型，Spark把這些操作稱爲Transformations。同時還提供Count, collect, reduce, lookup, save等多種actions操作。
- 這些多種多樣的數據集操作類型，給給開發上層應用的用戶提供了方便。各個處理節點之間的通信模型不再像Hadoop那樣就是唯一的Data Shuffle一種模式。用戶可以命名，物化，控制中間結果的存儲、分區等。可以說編程模型比Hadoop更靈活。
- 不過由於RDD的特性，Spark不適用那種異步細粒度更新狀態的應用，例如web服務的存儲或者是增量的web爬蟲和索引。就是對於那種增量修改的應用模型不適合。
容錯性。
- 在分佈式數據集計算時通過checkpoint來實現容錯，而checkpoint有兩種方式，一個是checkpoint data，一個是logging the updates。用戶可以控制採用哪種方式來實現容錯。
可用性。
- Spark通過提供豐富的Scala, Java，Python API及交互式Shell來提高可用性。

Spark與Hadoop的結合

Spark可以直接對HDFS進行數據的讀寫，同樣支持Spark on YARN。Spark可以與MapReduce運行於同集羣中，共享存儲資源與計算，數據倉庫Shark實現上借用Hive，幾乎與Hive完全兼容。

Spark的適用場景

Spark是基於內存的迭代計算框架，適用於需要多次操作特定數據集的應用場合。需要反覆操作的次數越多，所需讀取的數據量越大，受益越大，數據量小但是計算密集度較大的場合，受益就相對較小
由於RDD的特性，Spark不適用那種異步細粒度更新狀態的應用，例如web服務的存儲或者是增量的web爬蟲和索引。就是對於那種增量修改的應用模型不適合。
總的來說Spark的適用面比較廣泛且比較通用。

運行模式

本地模式
Standalone模式
Mesoes模式
yarn模式

Spark生態系統

Shark ( Hive on Spark): Shark基本上就是在Spark的框架基礎上提供和Hive一樣的H iveQL命令接口，爲了最大程度的保持和Hive的兼容性，Shark使用了Hive的API來實現query Parsing和 Logic Plan generation，最後的PhysicalPlan execution階段用Spark代替Hadoop MapReduce。通過配置Shark參數，Shark可以自動在內存中緩存特定的RDD，實現數據重用，進而加快特定數據集的檢索。同時，Shark通過UDF用戶自定義函數實現特定的數據分析學習算法，使得SQL數據查詢和運算分析能結合在一起，最大化RDD的重複使用。
Spark streaming: 構建在Spark上處理Stream數據的框架，基本的原理是將Stream數據分成小的時間片斷（幾秒），以類似batch批量處理的方式來處理這小部分數據。Spark Streaming構建在Spark上，一方面是因爲Spark的低延遲執行引擎（100ms+）可以用於實時計算，另一方面相比基於Record的其它處理框架（如Storm），RDD數據集更容易做高效的容錯處理。此外小批量處理的方式使得它可以同時兼容批量和實時數據處理的邏輯和算法。方便了一些需要歷史數據和實時數據聯合分析的特定應用場合。
Bagel: Pregel on Spark，可以用Spark進行圖計算，這是個非常有用的小項目。Bagel自帶了一個例子，實現了Google的PageRank算法。

在業界的使用

Spark項目在2009年啓動，2010年開源, 現在使用的有：Berkeley, Princeton, Klout, Foursquare, Conviva, Quantifind, Yahoo! Research & others, 淘寶等，豆瓣也在使用Spark的python克隆版Dpark。

Spark核心概念

Resilient Distributed Dataset (RDD)彈性分佈數據集

RDD是Spark的最基本抽象,是對分佈式內存的抽象使用，實現了以操作本地集合的方式來操作分佈式數據集的抽象實現。RDD是Spark最核心的東西，它表示已被分區，不可變的並能夠被並行操作的數據集合，不同的數據集格式對應不同的RDD實現。RDD必須是可序列化的。RDD可以cache到內存中，每次對RDD數據集的操作之後的結果，都可以存放到內存中，下一個操作可以直接從內存中輸入，省去了MapReduce大量的磁盤IO操作。這對於迭代運算比較常見的機器學習算法, 交互式數據挖掘來說，效率提升比較大。
RDD的特點：
1. 它是在集羣節點上的不可變的、已分區的集合對象。
2. 通過並行轉換的方式來創建如（map, filter, join, etc）。
3. 失敗自動重建。
4. 可以控制存儲級別（內存、磁盤等）來進行重用。
5. 必須是可序列化的。
6. 是靜態類型的。
RDD的好處
1. RDD只能從持久存儲或通過Transformations操作產生，相比於分佈式共享內存（DSM）可以更高效實現容錯，對於丟失部分數據分區只需根據它的lineage就可重新計算出來，而不需要做特定的Checkpoint。
2. RDD的不變性，可以實現類Hadoop MapReduce的推測式執行。
3. RDD的數據分區特性，可以通過數據的本地性來提高性能，這與Hadoop MapReduce是一樣的。
4. RDD都是可序列化的，在內存不足時可自動降級爲磁盤存儲，把RDD存儲於磁盤上，這時性能會有大的下降但不會差於現在的MapReduce。
RDD的存儲與分區
1. 用戶可以選擇不同的存儲級別存儲RDD以便重用。
2. 當前RDD默認是存儲於內存，但當內存不足時，RDD會spill到disk。
3. RDD在需要進行分區把數據分佈於集羣中時會根據每條記錄Key進行分區（如Hash 分區），以此保證兩個數據集在Join時能高效。
RDD的內部表示
在RDD的內部實現中每個RDD都可以使用5個方面的特性來表示：
1. 分區列表（數據塊列表）
2. 計算每個分片的函數（根據父RDD計算出此RDD）
3. 對父RDD的依賴列表
4. 對key-value RDD的Partitioner【可選】
5. 每個數據分片的預定義地址列表(如HDFS上的數據塊的地址)【可選】
RDD的存儲級別
RDD根據useDisk、useMemory、deserialized、replication四個參數的組合提供了11種存儲級別：

    val NONE = new StorageLevel(false, false, false) 
    val DISK_ONLY = new StorageLevel(true, false, false) 
    val DISK_ONLY_2 = new StorageLevel(true, false, false, 2) 
    val MEMORY_ONLY = new StorageLevel(false, true, true) 
    val MEMORY_ONLY_2 = new StorageLevel(false, true, true, 2) 
    val MEMORY_ONLY_SER = new StorageLevel(false, true, false) 
    val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, 2) 
    val MEMORY_AND_DISK = new StorageLevel(true, true, true) 
    val MEMORY_AND_DISK_2 = new StorageLevel(true, true, true, 2) 
    val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false) 
    val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, 2)

RDD定義了各種操作，不同類型的數據由不同的RDD類抽象表示，不同的操作也由RDD進行抽實現。

RDD的生成

RDD有兩種創建方式：
1、從Hadoop文件系統（或與Hadoop兼容的其它存儲系統）輸入（例如HDFS）創建。
2、從父RDD轉換得到新RDD。

下面來看一從Hadoop文件系統生成RDD的方式，如：val file = spark.textFile("hdfs://...")，file變量就是RDD（實際是HadoopRDD實例），生成的它的核心代碼如下：


1

2

3

4

5

6

7

8

9

    //
SparkContext根據文件/目錄及可選的分片數創建RDD, 這裏我們可以看到Spark與Hadoop MapReduce很像 

    //
需要InputFormat, Key、Value的類型，其實Spark使用的Hadoop的InputFormat, Writable類型。 

    deftextFile(path:String,minSplits:Int=defaultMinSplits):RDD[String]={

        hadoopFile(path,classOf[TextInputFormat],classOf[LongWritable],

        classOf[Text],minSplits).map(pair=>pair._2.toString)}

    //
根據Hadoop配置，及InputFormat等創建HadoopRDD  

    newHadoopRDD(this,conf,inputFormatClass,keyClass,valueClass,minSplits)

對RDD進行計算時，RDD從HDFS讀取數據時與Hadoop MapReduce幾乎一樣的：

 // 根據hadoop配置和分片從InputFormat中獲取RecordReader進行數據的讀取。 
    reader = fmt.getRecordReader(split.inputSplit.value, conf, Reporter.NULL)
 
    val key: K = reader.createKey()
    val value: V = reader.createValue()
 
    //使用Hadoop MapReduce的RecordReader讀取數據，每個Key、Value對以元組返回。
    override def getNext() = {
    try {
      finished = !reader.next(key, value)
    } catch {
      case eof: EOFException =>
        finished = true
    }
      (key, value)
    }

RDD的轉換與操作

對於RDD可以有兩種計算方式：轉換（返回值還是一個RDD）與操作（返回值不是一個RDD）。
轉換(Transformations) (如：map, filter, groupBy, join等)，Transformations操作是Lazy的，也就是說從一個RDD轉換生成另一個RDD的操作不是馬上執行，Spark在遇到Transformations操作時只會記錄需要這樣的操作，並不會去執行，需要等到有Actions操作的時候纔會真正啓動計算過程進行計算。
操作(Actions) (如：count, collect, save等)，Actions操作會返回結果或把RDD數據寫到存儲系統中。Actions是觸發Spark啓動計算的動因。
下面使用一個例子來示例說明Transformations與Actions在Spark的使用。

    valsc=newSparkContext(master,"Example",System.getenv("SPARK_HOME"),
        Seq(System.getenv("SPARK_TEST_JAR")))
 
    valrdd_A=sc.textFile(hdfs://.....)
    valrdd_B=rdd_A.flatMap((line=>line.split("\\s+"))).map(word=>(word,1))
 
    valrdd_C=sc.textFile(hdfs://.....)
    valrdd_D=rdd_C.map(line=>(line.substring(10),1))
    valrdd_E=rdd_D.reduceByKey((a,b)=>a+b)
 
    valrdd_F=rdd_B.jion(rdd_E)
 
    rdd_F.saveAsSequenceFile(hdfs://....)

Lineage（血統）

利用內存加快數據加載,在衆多的其它的In-Memory類數據庫或Cache類系統中也有實現，Spark的主要區別在於它處理分佈式運算環境下的數據容錯性（節點實效/數據丟失）問題時採用的方案。爲了保證RDD中數據的魯棒性，RDD數據集通過所謂的血統關係(Lineage)記住了它是如何從其它RDD中演變過來的。相比其它系統的細顆粒度的內存數據更新級別的備份或者LOG機制，RDD的Lineage記錄的是粗顆粒度的特定數據轉換（Transformation）操作（filter, map, join etc.)行爲。當這個RDD的部分分區數據丟失時，它可以通過Lineage獲取足夠的信息來重新運算和恢復丟失的數據分區。這種粗顆粒的數據模型，限制了Spark的運用場合，但同時相比細顆粒度的數據模型，也帶來了性能的提升。
RDD在Lineage依賴方面分爲兩種Narrow Dependencies與Wide Dependencies用來解決數據容錯的高效性。Narrow Dependencies是指父RDD的每一個分區最多被一個子RDD的分區所用，表現爲一個父RDD的分區對應於一個子RDD的分區或多個父RDD的分區對應於一個子RDD的分區，也就是說一個父RDD的一個分區不可能對應一個子RDD的多個分區。Wide Dependencies是指子RDD的分區依賴於父RDD的多個分區或所有分區，也就是說存在一個父RDD的一個分區對應一個子RDD的多個分區。對與Wide Dependencies，這種計算的輸入和輸出在不同的節點上，lineage方法對與輸入節點完好，而輸出節點宕機時，通過重新計算，這種情況下，這種方法容錯是有效的，否則無效，因爲無法重試，需要向上其祖先追溯看是否可以重試（這就是lineage，血統的意思），Narrow Dependencies對於數據的重算開銷要遠小於Wide Dependencies的數據重算開銷。

容錯

在RDD計算，通過checkpint進行容錯，做checkpoint有兩種方式，一個是checkpoint data，一個是logging the updates。用戶可以控制採用哪種方式來實現容錯，默認是logging the updates方式，通過記錄跟蹤所有生成RDD的轉換（transformations）也就是記錄每個RDD的lineage（血統）來重新計算生成丟失的分區數據。

資源管理與作業調度

Spark對於資源管理與作業調度可以使用Standalone(獨立模式)，Apache Mesos及Hadoop YARN來實現。 Spark on Yarn在Spark0.6時引用，但真正可用是在現在的branch-0.8版本。Spark on Yarn遵循YARN的官方規範實現，得益於Spark天生支持多種Scheduler和Executor的良好設計，對YARN的支持也就非常容易，Spark on Yarn的大致框架圖。
讓Spark運行於YARN上與Hadoop共用集羣資源可以提高資源利用率。

編程接口

Spark通過與編程語言集成的方式暴露RDD的操作，類似於DryadLINQ和FlumeJava，每個數據集都表示爲RDD對象，對數據集的操作就表示成對RDD對象的操作。Spark主要的編程語言是Scala，選擇Scala是因爲它的簡潔性（Scala可以很方便在交互式下使用）和性能（JVM上的靜態強類型語言）。
Spark和Hadoop MapReduce類似，由Master(類似於MapReduce的Jobtracker)和Workers(Spark的Slave工作節點)組成。用戶編寫的Spark程序被稱爲Driver程序，Dirver程序會連接master並定義了對各RDD的轉換與操作，而對RDD的轉換與操作通過Scala閉包(字面量函數)來表示，Scala使用Java對象來表示閉包且都是可序列化的，以此把對RDD的閉包操作發送到各Workers節點。 Workers存儲着數據分塊和享有集羣內存，是運行在工作節點上的守護進程，當它收到對RDD的操作時，根據數據分片信息進行本地化數據操作，生成新的數據分片、返回結果或把RDD寫入存儲系統。

Scala

Spark使用Scala開發，默認使用Scala作爲編程語言。編寫Spark程序比編寫Hadoop MapReduce程序要簡單的多，SparK提供了Spark-Shell，可以在Spark-Shell測試程序。寫SparK程序的一般步驟就是創建或使用(SparkContext)實例，使用SparkContext創建RDD，然後就是對RDD進行操作。如：

    val sc = new SparkContext(master, appName, [sparkHome], [jars]) 
    val textFile = sc.textFile("hdfs://.....") 
    textFile.map(....).filter(.....).....

Java

Spark支持Java編程，但對於使用Java就沒有了Spark-Shell這樣方便的工具，其它與Scala編程是一樣的，因爲都是JVM上的語言，Scala與Java可以互操作，Java編程接口其實就是對Scala的封裝。如：

    <span style="color:#555555;">JavaSparkContextsc=newJavaSparkContext(...);  
    JavaRDDlines=ctx.textFile("hdfs://...");
    JavaRDDwords=lines.flatMap(
      newFlatMapFunction<String,String>(){
        publicIterablecall(Strings){
            returnArrays.asList(s.split(" "));
        }
      }
    );</span>

Python

現在Spark也提供了Python編程接口，Spark使用py4j來實現python與java的互操作，從而實現使用python編寫Spark程序。Spark也同樣提供了pyspark，一個Spark的python shell，可以以交互式的方式使用Python編寫Spark程序。如：

    from pyspark import SparkContext 
    sc = SparkContext("local", "Job Name", pyFiles=['MyFile.py', 'lib.zip', 'app.egg']) 
    words = sc.textFile("/usr/share/dict/words") 
    words.filter(lambda w: w.startswith("spar")).take(5)

使用示例

Standalone模式

爲方便Spark的推廣使用，Spark提供了Standalone模式，Spark一開始就設計運行於Apache Mesos資源管理框架上，這是非常好的設計，但是卻帶了部署測試的複雜性。爲了讓Spark能更方便的部署和嘗試，Spark因此提供了Standalone運行模式，它由一個Spark Master和多個Spark worker組成，與Hadoop MapReduce1很相似，就連集羣啓動方式都幾乎是一樣。
以Standalone模式運行Spark集羣

下載Scala2.9.3，並配置SCALA_HOME
下載Spark代碼（可以使用源碼編譯也可以下載編譯好的版本）這裏下載編譯好的版本（http://spark-project.org/download/spark-0.7.3-prebuilt-cdh4.tgz）
解壓spark-0.7.3-prebuilt-cdh4.tgz安裝包
修改配置（conf/*） slaves: 配置工作節點的主機名 spark-env.sh：配置環境變量。

SCALA_HOME=/home/spark/scala-2.9.3
JAVA_HOME=/home/spark/jdk1.6.0_45
SPARK_MASTER_IP=spark1            
SPARK_MASTER_PORT=30111
SPARK_MASTER_WEBUI_PORT=30118
SPARK_WORKER_CORES=2SPARK_WORKER_MEMORY=4g
SPARK_WORKER_PORT=30333
SPARK_WORKER_WEBUI_PORT=30119
SPARK_WORKER_INSTANCES=1

把Hadoop配置copy到conf目錄下
在master主機上對其它機器做ssh無密碼登錄
把配置好的Spark程序使用scp copy到其它機器
在master啓動集羣

    $SPARK_HOME/start-all.sh

yarn模式

Spark-shell現在還不支持Yarn模式，使用Yarn模式運行，需要把Spark程序全部打包成一個jar包提交到Yarn上運行。目錄只有branch-0.8版本才真正支持Yarn。
以Yarn模式運行Spark
- 下載Spark代碼

gitclonegit://github.com/mesos/spark

切換到branch-0.8

cd spark 
git checkout -b yarn --track origin/yarn

使用sbt編譯Spark並

$SPARK_HOME/sbt/sbt
>package
>assembly

把Hadoop yarn配置copy到conf目錄下
運行測試

SPARK_JAR=./core/target/scala-2.9.3/spark-core-assembly-0.8.0-SNAPSHOT.jar \ 
./run spark.deploy.yarn.Client --jar examples/target/scala-2.9.3/ \ 
--class spark.examples.SparkPi --args yarn-standalone

使用Spark-shell

Spark-shell使用很簡單，當Spark以Standalon模式運行後，使用$SPARK_HOME/spark-shell進入shell即可，在Spark-shell中SparkContext已經創建好了，實例名爲sc可以直接使用，還有一個需要注意的是，在Standalone模式下，Spark默認使用的調度器的FIFO調度器而不是公平調度，而Spark-shell作爲一個Spark程序一直運行在Spark上，其它的Spark程序就只能排隊等待，也就是說同一時間只能有一個Spark-shell在運行。
在Spark-shell上寫程序非常簡單，就像在Scala Shell上寫程序一樣。

    scala>valtextFile=sc.textFile("hdfs://hadoop1:2323/user/data")
    textFile:spark.RDD[String]=spark.MappedRDD@2ee9b6e3
 
    scala>textFile.count()// Number of items in this RDD
    res0:Long=21374
 
    scala>textFile.first()// First item in this RDD
    res1:String=# Spark

編寫Driver程序

在Spark中Spark程序稱爲Driver程序，編寫Driver程序很簡單幾乎與在Spark-shell上寫程序是一樣的，不同的地方就是SparkContext需要自己創建。如WorkCount程序如下：

import SparkContext._
 
object WordCount {
  def main(args: Array[String]) {
    if (args.length ==0 ){
      println("usage is org.test.WordCount <master>")
    }
    println("the args: ")
    args.foreach(println)
 
    val hdfsPath = "hdfs://hadoop1:8020"
 
    // create the SparkContext， args(0)由yarn傳入appMaster地址
    val sc = new SparkContext(args(0), "WrodCount",
    System.getenv("SPARK_HOME"), Seq(System.getenv("SPARK_TEST_JAR")))
 
    val textFile = sc.textFile(hdfsPath + args(1))
 
    val result = textFile.flatMap(line => line.split("\\s+"))
        .map(word => (word, 1)).reduceByKey(_ + _)
 
    result.saveAsTextFile(hdfsPath + args(2))
  }
}

Spark On Yarn：小火花照亮大數據

</pre></li><li style="margin:0px; padding:0px; border:0px; font-family:inherit; font-style:inherit; font-variant:inherit; font-weight:inherit; line-height:inherit; vertical-align:baseline"><pre code_snippet_id="518367" snippet_file_name="blog_20141113_5_3244181" name="code" class="java">importspark.SparkContext
importSparkContext._
 
objectWordCount{
  defmain(args:Array[String]){
    if(args.length==0){
      println("usage is org.test.WordCount <master>")
    }
    println("the args: ")
    args.foreach(println)
 
    valhdfsPath="hdfs://hadoop1:8020"
 
    // create the SparkContext， args(0)由yarn傳入appMaster地址
    valsc=newSparkContext(args(0),"WrodCount",
    System.getenv("SPARK_HOME"),Seq(System.getenv("SPARK_TEST_JAR")))
 
    valtextFile=sc.textFile(hdfsPath+args(1))
 
    valresult=textFile.flatMap(line=>line.split("\\s+"))
        .map(word=>(word,1)).reduceByKey(_+_)
 
    result.saveAsTextFile(hdfsPath+args(2))
  }
}

轉自：http://tech.uc.cn/?p=2116

importspark.SparkContext
importSparkContext._
 
objectWordCount{
  defmain(args:Array[String]){
    if(args.length==0){
      println("usage is org.test.WordCount <master>")
    }
    println("the args: ")
    args.foreach(println)
 
    valhdfsPath="hdfs://hadoop1:8020"
 
    // create the SparkContext， args(0)由yarn傳入appMaster地址
    valsc=newSparkContext(args(0),"WrodCount",
    System.getenv("SPARK_HOME"),Seq(System.getenv("SPARK_TEST_JAR")))
 
    valtextFile=sc.textFile(hdfsPath+args(1))
 
    valresult=textFile.flatMap(line=>line.split("\\s+"))
        .map(word=>(word,1)).reduceByKey(_+_)
 
    result.saveAsTextFile(hdfsPath+args(2))
  }
}