內容簡介:
一、Spark初現
二、Spark—大數據Big Data處理框架
三、Spark與Hadoop之比較
一、Spark初現
Spark是一個通用的並行計算框架,由UCBerkeley的AMP實驗室開發。Spark基於map reduce 算法模式實現的分佈式計算,擁有Hadoop MapReduce所具有的優點;但不同於Hadoop MapReduce的是Job中間輸出和結果可以保存在內存中,從而不再需要讀寫HDFS,節省了磁盤IO耗時,號稱性能比Hadoop快100倍。
Spark性能比Hadoop快原因分解:
(1)傳統Hadoop數據抽取運算模型是:
ps:數據的抽取運算基於磁盤,中間結果也是存儲在磁盤上。MR運算伴隨着大量的磁盤IO。
(2)Spark 則使用內存代替了傳統HDFS存儲中間結果:
簡述:第一代的Hadoop完全使用Hdfs存儲中間結果,第二帶的Hadoop加入了cache來保存中間結果。而Spark則基於內存的中間數據集存儲。可以將Spark理解爲Hadoop的升級版本,Spark兼容了Hadoop的API,並且能夠讀取Hadoop的數據文件格式,包括HDFS,Hbase等。
3.Spark架構圖:
(1)Bagel(pregel on spark):Bagel是基於Spark的輕量級的Pregel(Pregel是Google鼎鼎有名的圖計算框架)的實現。
(2)Shark(Hive on Spark):Shark基本上就是在Spark的框架基礎上提供和Hive一樣的HiveQL命令接口。可以理解爲Shark On Spark,就是Hive On Hadoop,兩者地位是一樣的。ps:Shark可以通過UDF用戶自定義函數實現特定的數據分析學習算法,使得SQL數據查詢和運算分析功能結合在一起(最大化RDD的重複使用)。
(3)Streaming(Spark):Spark Streaming是構建在Spark上的處理實時數據的框架。其基本原理是將Stream數據分成小的時間片段(幾秒),以類似batch批處理的方式來處理小部分數據。
(4)RDD(Resilient Distributed Dataset,彈性分佈式數據集):RDD是Spark操縱數據的一個高度抽象,即Spark所操作的數據集都是包裝成RDD來進行操作的,例如Spark可以兼容處理Hadoop的HDFS數據文件,那麼這個HDFS數據文件就是包裝成Spark認識的RDD來完成數據抽取和處理的。RDD的一個英文定義是:RDDs are fault-tolerant, parallel data structures that let users explicitly persist
intermediate results in memory, control their partitioning to optimize data placement, and manipulate them using a rich set of operators. 用我薄弱的英語能力翻譯一下就是:RDD是一個能夠讓用戶可以準確的將中間結果數據持久化到內存中的一個可用錯的並行數據結構,可以控制(RDD數據集)分區,優化數據存儲,並且有一組豐富的操作集可以操作這份數據。ps:RDD是Spark的一個核心抽象,Spark的數據操作都是基於RDD來完成。
(5)Map Reduce:MR 是Spark可以支撐的運算模式,比傳統的Hadoop MR的性能更好,並且操作集更加豐富。Spark的MR計算引擎的架構圖:
ps:圖中的FP不知道是什麼,誰知道可以告訴我一下哈!
(6)Spark的運行模式:apache Mesos和YARN計算兩套資源管理框架,Spark最初設計就是跑在這兩個資源管理框架之上的,至於Spark的本地運行模式和獨立運行模式則是方便了調試。(至於圖中的EC2,應該屬跑在亞馬遜雲端的資源管理引擎上的吧,我猜?)。YARN資源管理框架也是Hadoop2.0的產物,大大優化了傳統Hadoop通過JobTracker和TaskTracker來調度計算任務的方式,使集羣更加平臺化,可以部署多中計算引擎,比如傳統的Hadoop MR和Spark都可以跑在同一個集羣上,YARN這類資源管理框架出現之前是做不到的。
(7)Spark數據的存儲:Spark支持多種數據底層存儲,這點比Hadoop支持的數據文件格式廣泛的多。Spark可以兼容HDFS,Hbase,Amazon S3等多種數據集,將這些數據集封裝成RDD進行操作。
4.Spark照比傳統Hadoop MR的改進點:
(1)迭代運算,一次創建數據集。多次使用,減少了IO的開銷;(2)允許多種計算模型(包含map-reduce);(3)支持非OO式算法實現,對機器學習算法,圖計算能力有很好的支持。
5.Spark的適用場景:
Spark立足於內存計算,從而不再需要頻繁的讀寫HDFS,這使得Spark能更好的適用於:
(1) 迭代算法,包括大部分機器學習算法Machine Learning和比如PageRank的圖形算法。
(2) 交互式數據挖掘,用戶大部分情況都會大量重複的使用導入RAM的數據(R、Excel、python)
(3) 需要持續長時間維護狀態聚合的流式計算。
二、Hadoop YARN 基礎知識梳理
1.Yarn是什麼:
Yarn (Hadoop MapReduceV2)是Hadoop 0.23.0版本後新的map-reduce框架或這更準確的說是框架容器。
架構圖:
名詞解釋:
(1) ResourceManager:以下簡稱RM。YARN的中控模塊,負責統一規劃資源的使用。
ps:ResourceManager是YARN資源控制框架的中心模塊,負責集羣中所有資源的統一管理和分配。它接收來自NM的彙報,建立AM,並將資源派送給AM。
(2) NodeManager:以下簡稱MM。YARN中的資源結點模塊,負責啓動管理container。
(3) ApplicationMaster以下簡稱AM。YARN中每個應用都會啓動一個AM,負責向RM申請資源,請求NM啓動container,並告訴container做什麼事情。
(4) Container:資源容器。YARN中所有的應用都是在container之上運行的。AM也是在container上運行的,不過AM也是在Container上運行的,不過AM的container是向RM申請的。
簡述:新一代的YARN容器框架,是傳統的MR Hadoop容器框架的升級版本,之前的MR部署架構依賴於JobTracker和TaskTracker的交互模式,而新一代的YARN容器框架,則採用了ResourceManager和NodeManager的交互模式,更高層次的抽象和架構設計,是的YARN容器框架能夠支撐多種計算引擎運行,包括傳統的Hadoop MR和現在的比較新的SPARK。
2.Hadoop YARN產生的背景:
(1)直接源於MRv1(傳統的Hadoop MR)如下幾個缺陷:
受限的擴展性;單點故障;難以支持MR之外的計算; (2)多計算框架各自爲戰,數據共享困難。比如MR(離線計算框架),Storm實時計算框架,Spark內存計算框架很難部署在同一個集羣上,導致數據共享困難。
簡述:Hadoop Yarn的出現則解決了上述問題。
3.Hadoop 1.0到Hadoop 2.0(基於YARN)的演變:
簡述:hadoop2.0在傳統的MapReduce計算框架和存儲框架HDFS之間加了一個YARN層,使得集羣框架可以支撐多中計算引擎,包括上文中的SPARK。
4.以Yarn爲核心的Hadoop2.0生態系統:
簡述:圖片簡單明瞭,不多說了。
5.運行在YARN上的計算框架:
(1)離線計算框架:MapReduce
(2)DAG計算框架:Tez
(3)流式計算框架:Storm
(4)內存計算框架:Spark
(5)圖計算框架:Giraph,Graphlib
6.Spark On Yarn的調度管理:
7.傳統MapReduce 在YARN上的調度:
參考文獻:http://blog.csdn.net/lantian0802/article/details/22507525
二、Spark—大數據Big Data處理框架
Spark是一個針對超大數據集合的低延遲的集羣分佈式計算系統,比MapReducer快40倍左右。
Spark是hadoop的升級版本,Hadoop作爲第一代產品使用HDFS,第二代加入了Cache來保存中間計算結果,並能適時主動推Map/Reduce任務,第三代就是Spark倡導的流Streaming。
Spark兼容Hadoop的APi,能夠讀寫Hadoop的HDFS HBASE 順序文件等。
傳統Hadoop如下圖 性能慢原因有:磁盤IO 複製和序列化等等,涉及圖中的HDFS
而在Spark中,使用內存替代了使用HDFS存儲中間結果:
Spark架構圖
Spark的編程模型
彈性的分佈數據集(RDD) :分佈式對象集合能夠跨集羣在內存中保存。多個並行操作,失敗自動恢復。
使用內存集羣計算, 內存訪問要比磁盤快得多。有Scala Java Python API,能夠從Scala和Python訪問。
下面是一個簡單的對日誌log計數的代碼:
/*** SimpleJob.scala ***/
import spark.SparkContext
import SparkContext._
object SimpleJob {
def main(args: Array[String]) {
val logFile = "/var/log/syslog" // Should be some file on your system
val sc = new SparkContext("local", "Simple Job", "$YOUR_SPARK_HOME",
List("target/scala-2.9.3/simple-project_2.9.3-1.0.jar"))
val logData = sc.textFile(logFile, 2).cache()
val numAs = logData.filter(line => line.contains("a")).count()
val numBs = logData.filter(line => line.contains("b")).count()
println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
}
}
運行原理圖:
當進行filter操作是,是一種transformed RDD,RDD跟蹤這種轉換,當有數據丟失失敗時,重新計算 得到這個數據。
Spark支持物流logistic表達式,如下圖:
物流表達式相比Hadoop的遍歷性能:
支持以下數據分析操作:
Spark流處理
以推流方式處理數據:
Shark
Shark是基於Spark上的“Hive”,看看基於hadoop的Hive:
而Shark的結構圖:
Hive是記錄每行記錄一個對象,而shark是每列記錄:
執行SQL時間對比:
轉自:http://www.jdon.com/bigdata/spark.html
三、Spark與Hadoop之比較
什麼是Spark
-
對RDD進行計算時,RDD從HDFS讀取數據時與Hadoop MapReduce幾乎一樣的:
// 根據hadoop配置和分片從InputFormat中獲取RecordReader進行數據的讀取。
reader = fmt.getRecordReader(split.inputSplit.value, conf, Reporter.NULL)
val key: K = reader.createKey()
val value: V = reader.createValue()
//使用Hadoop MapReduce的RecordReader讀取數據,每個Key、Value對以元組返回。
override def getNext() = {
try {
finished = !reader.next(key, value)
} catch {
case eof: EOFException =>
finished = true
}
(key, value)
}
對RDD進行計算時,RDD從HDFS讀取數據時與Hadoop MapReduce幾乎一樣的:
// 根據hadoop配置和分片從InputFormat中獲取RecordReader進行數據的讀取。
reader = fmt.getRecordReader(split.inputSplit.value, conf, Reporter.NULL)
val key: K = reader.createKey()
val value: V = reader.createValue()
//使用Hadoop MapReduce的RecordReader讀取數據,每個Key、Value對以元組返回。
override def getNext() = {
try {
finished = !reader.next(key, value)
} catch {
case eof: EOFException =>
finished = true
}
(key, value)
}
RDD的轉換與操作
- 對於RDD可以有兩種計算方式:轉換(返回值還是一個RDD)與操作(返回值不是一個RDD)。
- 轉換(Transformations) (如:map, filter, groupBy, join等),Transformations操作是Lazy的,也就是說從一個RDD轉換生成另一個RDD的操作不是馬上執行,Spark在遇到Transformations操作時只會記錄需要這樣的操作,並不會去執行,需要等到有Actions操作的時候纔會真正啓動計算過程進行計算。
- 操作(Actions) (如:count, collect, save等),Actions操作會返回結果或把RDD數據寫到存儲系統中。Actions是觸發Spark啓動計算的動因。
-
下面使用一個例子來示例說明Transformations與Actions在Spark的使用。
valsc=newSparkContext(master,"Example",System.getenv("SPARK_HOME"),
Seq(System.getenv("SPARK_TEST_JAR")))
valrdd_A=sc.textFile(hdfs://.....)
valrdd_B=rdd_A.flatMap((line=>line.split("\\s+"))).map(word=>(word,1))
valrdd_C=sc.textFile(hdfs://.....)
valrdd_D=rdd_C.map(line=>(line.substring(10),1))
valrdd_E=rdd_D.reduceByKey((a,b)=>a+b)
valrdd_F=rdd_B.jion(rdd_E)
rdd_F.saveAsSequenceFile(hdfs://....)
Lineage(血統)
- 利用內存加快數據加載,在衆多的其它的In-Memory類數據庫或Cache類系統中也有實現,Spark的主要區別在於它處理分佈式運算環境下的數據容錯性(節點實效/數據丟失)問題時採用的方案。爲了保證RDD中數據的魯棒性,RDD數據集通過所謂的血統關係(Lineage)記住了它是如何從其它RDD中演變過來的。相比其它系統的細顆粒度的內存數據更新級別的備份或者LOG機制,RDD的Lineage記錄的是粗顆粒度的特定數據轉換(Transformation)操作(filter, map, join etc.)行爲。當這個RDD的部分分區數據丟失時,它可以通過Lineage獲取足夠的信息來重新運算和恢復丟失的數據分區。這種粗顆粒的數據模型,限制了Spark的運用場合,但同時相比細顆粒度的數據模型,也帶來了性能的提升。
- RDD在Lineage依賴方面分爲兩種Narrow Dependencies與Wide Dependencies用來解決數據容錯的高效性。Narrow Dependencies是指父RDD的每一個分區最多被一個子RDD的分區所用,表現爲一個父RDD的分區對應於一個子RDD的分區或多個父RDD的分區對應於一個子RDD的分區,也就是說一個父RDD的一個分區不可能對應一個子RDD的多個分區。Wide Dependencies是指子RDD的分區依賴於父RDD的多個分區或所有分區,也就是說存在一個父RDD的一個分區對應一個子RDD的多個分區。對與Wide Dependencies,這種計算的輸入和輸出在不同的節點上,lineage方法對與輸入節點完好,而輸出節點宕機時,通過重新計算,這種情況下,這種方法容錯是有效的,否則無效,因爲無法重試,需要向上其祖先追溯看是否可以重試(這就是lineage,血統的意思),Narrow Dependencies對於數據的重算開銷要遠小於Wide Dependencies的數據重算開銷。
容錯
- 在RDD計算,通過checkpint進行容錯,做checkpoint有兩種方式,一個是checkpoint data,一個是logging the updates。用戶可以控制採用哪種方式來實現容錯,默認是logging the updates方式,通過記錄跟蹤所有生成RDD的轉換(transformations)也就是記錄每個RDD的lineage(血統)來重新計算生成丟失的分區數據。
資源管理與作業調度
-
Spark對於資源管理與作業調度可以使用Standalone(獨立模式),Apache Mesos及Hadoop YARN來實現。 Spark on Yarn在Spark0.6時引用,但真正可用是在現在的branch-0.8版本。Spark on Yarn遵循YARN的官方規範實現,得益於Spark天生支持多種Scheduler和Executor的良好設計,對YARN的支持也就非常容易,Spark on Yarn的大致框架圖。
-
讓Spark運行於YARN上與Hadoop共用集羣資源可以提高資源利用率。
編程接口
- Spark通過與編程語言集成的方式暴露RDD的操作,類似於DryadLINQ和FlumeJava,每個數據集都表示爲RDD對象,對數據集的操作就表示成對RDD對象的操作。Spark主要的編程語言是Scala,選擇Scala是因爲它的簡潔性(Scala可以很方便在交互式下使用)和性能(JVM上的靜態強類型語言)。
- Spark和Hadoop MapReduce類似,由Master(類似於MapReduce的Jobtracker)和Workers(Spark的Slave工作節點)組成。用戶編寫的Spark程序被稱爲Driver程序,Dirver程序會連接master並定義了對各RDD的轉換與操作,而對RDD的轉換與操作通過Scala閉包(字面量函數)來表示,Scala使用Java對象來表示閉包且都是可序列化的,以此把對RDD的閉包操作發送到各Workers節點。 Workers存儲着數據分塊和享有集羣內存,是運行在工作節點上的守護進程,當它收到對RDD的操作時,根據數據分片信息進行本地化數據操作,生成新的數據分片、返回結果或把RDD寫入存儲系統。
Scala
-
Spark使用Scala開發,默認使用Scala作爲編程語言。編寫Spark程序比編寫Hadoop MapReduce程序要簡單的多,SparK提供了Spark-Shell,可以在Spark-Shell測試程序。寫SparK程序的一般步驟就是創建或使用(SparkContext)實例,使用SparkContext創建RDD,然後就是對RDD進行操作。如:
val sc = new SparkContext(master, appName, [sparkHome], [jars])
val textFile = sc.textFile("hdfs://.....")
textFile.map(....).filter(.....).....
Java
Spark支持Java編程,但對於使用Java就沒有了Spark-Shell這樣方便的工具,其它與Scala編程是一樣的,因爲都是JVM上的語言,Scala與Java可以互操作,Java編程接口其實就是對Scala的封裝。如:
<span style="color:#555555;">JavaSparkContextsc=newJavaSparkContext(...);
JavaRDDlines=ctx.textFile("hdfs://...");
JavaRDDwords=lines.flatMap(
newFlatMapFunction<String,String>(){
publicIterablecall(Strings){
returnArrays.asList(s.split(" "));
}
}
);</span>
Python
-
現在Spark也提供了Python編程接口,Spark使用py4j來實現python與java的互操作,從而實現使用python編寫Spark程序。Spark也同樣提供了pyspark,一個Spark的python shell,可以以交互式的方式使用Python編寫Spark程序。 如:
from pyspark import SparkContext
sc = SparkContext("local", "Job Name", pyFiles=['MyFile.py', 'lib.zip', 'app.egg'])
words = sc.textFile("/usr/share/dict/words")
words.filter(lambda w: w.startswith("spar")).take(5)
使用示例
Standalone模式
- 爲方便Spark的推廣使用,Spark提供了Standalone模式,Spark一開始就設計運行於Apache Mesos資源管理框架上,這是非常好的設計,但是卻帶了部署測試的複雜性。爲了讓Spark能更方便的部署和嘗試,Spark因此提供了Standalone運行模式,它由一個Spark Master和多個Spark worker組成,與Hadoop MapReduce1很相似,就連集羣啓動方式都幾乎是一樣。
以Standalone模式運行Spark集羣
- 下載Scala2.9.3,並配置SCALA_HOME
- 下載Spark代碼(可以使用源碼編譯也可以下載編譯好的版本)這裏下載 編譯好的版本(
http://spark-project.org/download/spark-0.7.3-prebuilt-cdh4.tgz
) - 解壓spark-0.7.3-prebuilt-cdh4.tgz安裝包
修改配置(conf/*) slaves: 配置工作節點的主機名 spark-env.sh:配置環境變量。
-
把Hadoop配置copy到conf目錄下
-
在master主機上對其它機器做ssh無密碼登錄
-
把配置好的Spark程序使用scp copy到其它機器
-
在master啓動集羣
- Spark-shell現在還不支持Yarn模式,使用Yarn模式運行,需要把Spark程序全部打包成一個jar包提交到Yarn上運行。目錄只有branch-0.8版本才真正支持Yarn。
-
以Yarn模式運行Spark
-
下載Spark代碼
-
-
切換到branch-0.8
使用sbt編譯Spark並
把Hadoop yarn配置copy到conf目錄下
運行測試
-
Spark-shell使用很簡單,當Spark以Standalon模式運行後,使用
$SPARK_HOME/spark-shell
進入shell即可,在Spark-shell中SparkContext已經創建好了,實例名爲sc可以直接使用,還有一個需要注意的是,在Standalone模式下,Spark默認使用的調度器的FIFO調度器而不是公平調度,而Spark-shell作爲一個Spark程序一直運行在Spark上,其它的Spark程序就只能排隊等待,也就是說同一時間只能有一個Spark-shell在運行。 -
在Spark-shell上寫程序非常簡單,就像在Scala Shell上寫程序一樣。
-
在Spark中Spark程序稱爲Driver程序,編寫Driver程序很簡單幾乎與在Spark-shell上寫程序是一樣的,不同的地方就是SparkContext需要自己創建。如WorkCount程序如下:
- Spark On Yarn:小火花照亮大數據
-
</pre></li><li style="margin:0px; padding:0px; border:0px; font-family:inherit; font-style:inherit; font-variant:inherit; font-weight:inherit; line-height:inherit; vertical-align:baseline"><pre code_snippet_id="518367" snippet_file_name="blog_20141113_5_3244181" name="code" class="java">importspark.SparkContext importSparkContext._ objectWordCount{ defmain(args:Array[String]){ if(args.length==0){ println("usage is org.test.WordCount <master>") } println("the args: ") args.foreach(println) valhdfsPath="hdfs://hadoop1:8020" // create the SparkContext, args(0)由yarn傳入appMaster地址 valsc=newSparkContext(args(0),"WrodCount", System.getenv("SPARK_HOME"),Seq(System.getenv("SPARK_TEST_JAR"))) valtextFile=sc.textFile(hdfsPath+args(1)) valresult=textFile.flatMap(line=>line.split("\\s+")) .map(word=>(word,1)).reduceByKey(_+_) result.saveAsTextFile(hdfsPath+args(2)) } }
轉自:http://tech.uc.cn/?p=2116 -
importspark.SparkContext importSparkContext._ objectWordCount{ defmain(args:Array[String]){ if(args.length==0){ println("usage is org.test.WordCount <master>") } println("the args: ") args.foreach(println) valhdfsPath="hdfs://hadoop1:8020" // create the SparkContext, args(0)由yarn傳入appMaster地址 valsc=newSparkContext(args(0),"WrodCount", System.getenv("SPARK_HOME"),Seq(System.getenv("SPARK_TEST_JAR"))) valtextFile=sc.textFile(hdfsPath+args(1)) valresult=textFile.flatMap(line=>line.split("\\s+")) .map(word=>(word,1)).reduceByKey(_+_) result.saveAsTextFile(hdfsPath+args(2)) } }
轉自:http://tech.uc.cn/?p=2116
SCALA_HOME=/home/spark/scala-2.9.3
JAVA_HOME=/home/spark/jdk1.6.0_45
SPARK_MASTER_IP=spark1
SPARK_MASTER_PORT=30111
SPARK_MASTER_WEBUI_PORT=30118
SPARK_WORKER_CORES=2SPARK_WORKER_MEMORY=4g
SPARK_WORKER_PORT=30333
SPARK_WORKER_WEBUI_PORT=30119
SPARK_WORKER_INSTANCES=1
$SPARK_HOME/start-all.sh
yarn模式
gitclonegit://github.com/mesos/spark
cd spark
git checkout -b yarn --track origin/yarn
$SPARK_HOME/sbt/sbt
>package
>assembly
SPARK_JAR=./core/target/scala-2.9.3/spark-core-assembly-0.8.0-SNAPSHOT.jar \
./run spark.deploy.yarn.Client --jar examples/target/scala-2.9.3/ \
--class spark.examples.SparkPi --args yarn-standalone
使用Spark-shell
scala>valtextFile=sc.textFile("hdfs://hadoop1:2323/user/data")
textFile:spark.RDD[String]=spark.MappedRDD@2ee9b6e3
scala>textFile.count()// Number of items in this RDD
res0:Long=21374
scala>textFile.first()// First item in this RDD
res1:String=# Spark
編寫Driver程序
import SparkContext._
object WordCount {
def main(args: Array[String]) {
if (args.length ==0 ){
println("usage is org.test.WordCount <master>")
}
println("the args: ")
args.foreach(println)
val hdfsPath = "hdfs://hadoop1:8020"
// create the SparkContext, args(0)由yarn傳入appMaster地址
val sc = new SparkContext(args(0), "WrodCount",
System.getenv("SPARK_HOME"), Seq(System.getenv("SPARK_TEST_JAR")))
val textFile = sc.textFile(hdfsPath + args(1))
val result = textFile.flatMap(line => line.split("\\s+"))
.map(word => (word, 1)).reduceByKey(_ + _)
result.saveAsTextFile(hdfsPath + args(2))
}
}