大數據開發平臺:Spark環境搭建:看這一篇博客就夠了!!

目錄

寫在前面:

安裝環境:

 開始安裝:

一:下載安裝包

二:上傳安裝包到CentOS系統並解壓

三:本地模式 Local 初體驗:

啓動本地模式  Spark Shell

體驗讀取本地數據並計算:

體驗讀取HDFS數據並計算

四:standalone 集羣模式

角色介紹:

集羣規劃:

修改配置並分發到其他節點

分發到其他節點

啓動Spark集羣和關閉Spark集羣

啓動集羣式Spark Shell

五:standalone-HA 集羣高可用模式

原理:

​配置 HA

啓動ZK集羣

 啓動Spark HA集羣

測試 HA集羣

六:on yarn集羣模式

準備工作:

Cluster模式 【❤❤❤常用方式❤❤❤】:

示例程序:

client模式[瞭解]

兩種提交方式的區別:

七:Spark參數詳解

參數總結:

八:使用IDEA編寫Spark程序

1、創建Maven項目

2、本地執行:前提條件你的本機必須配置了Scala並且你的IDEA配置了Scala對應版本的插件

3、集羣運行:

不容易,這麼長你都看完了趕緊點個贊吧!!!

👇看完點贊👍 養成習慣😘 !!!!


寫在前面:

安裝環境:

CentOS 6.9傳送門

HaddopCDH5.14傳送門

首先Spark是一個基於內存的用於大規模數據處理的統一分析引擎。

其次它支持使用Scala、Python、R、SQL等語言快速編寫應用程序,使用非常方便。

最後Spark可以運行在Hadoop、Apache Mesos,Kubernetes等環境、也可以進行獨立或者在雲上運行,它可以訪問各種資源。

 開始安裝:

一:下載安裝包

官網英文版

官網中文版文檔

官方下載網址傳送門

本次安裝的Spark是已經編譯好的適用CDH版本https://pan.baidu.com/s/1RDAxpz2r2X2JZSpUFJ1Kkg 提取碼: gdg9

二:上傳安裝包到CentOS系統並解壓

 tar zxvf spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz -C ../servers/

三:本地模式 Local 初體驗:

解壓目錄說明:

啓動本地模式  Spark Shell

開箱即用  直接啓動bin 目錄下的  Spark Shell

bin/spark-shell

 看到LOGO👇就表明本地模式啓動成功

●spark-shell說明
  1.直接使用 bin./spark-shell 
    表示使用local 模式啓動,在本機啓動一個SparkSubmit進程
  2.還可指定參數 --master,如:
    bin/spark-shell --master local[N] 表示在本地模擬N個線程來運行當前任務
    bin/spark-shell --master local[*] 表示使用當前機器上所有可用的資源
  3.不攜帶參數默認就是
    bin/spark-shell --master local[*]
  4.後續還可以使用--master指定集羣地址,表示把任務提交到集羣上運行,如
    bin/spark-shell --master spark://node01:7077 
  5.退出spark-shell
    使用 :quit

體驗讀取本地數據並計算:

準備數據:

vim /root/words.txt

hello me you her
hello you her
hello her
hello

 在Spark中計算: 

val textFile = sc.textFile("file:///root/words.txt")
val counts = textFile.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
counts.collect//收集結果
#  Array[(String, Int)] = Array((you,2), (hello,4), (me,1), (her,3))

體驗讀取HDFS數據並計算

準備數據:

# 上傳文件到hdfs
hadoop fs -put /root/words.txt /wordcount/input/words.txt
# 目錄如果不存在可以創建
hadoop fs -mkdir -p /wordcount/input

 在Spark中計算:

val textFile = sc.textFile("hdfs://node01:8020/wordcount/input/words.txt")
val counts = textFile.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
# 把計算結果寫入到/wordcount/output
counts.saveAsTextFile("hdfs://node01:8020/wordcount/output")

四:standalone 集羣模式

角色介紹:

    Spark是基於內存計算的大數據並行計算框架,實際中運行計算任務肯定是使用集羣模式,那麼我們先來學習Spark自帶的standalone集羣模式瞭解一下它的架構及運行機制。
    Standalone集羣使用了分佈式計算中的master-slave模型,
    master是集羣中含有master進程的節點
    slave是集羣中的worker節點含有Executor進程

查看官方集羣模式概述【傳送門

集羣規劃:

node01:master
node02:slave/worker  
node03:slave/worker

修改配置並分發到其他節點

1、修改 spark-env.sh

cd /export/servers/spark/conf

# 最好是做一個備份

cp spark-env.sh.template spark-env.sh

vim  spark-env.sh

#配置java環境變量
export JAVA_HOME=/export/servers/jdk1.8
#指定spark Master的IP
export SPARK_MASTER_HOST=node01
#指定spark Master的端口
export SPARK_MASTER_PORT=7077

cp slaves.template slaves

vim  slaves

node02
node03

 按需配置(不是重點🙃):

●配置spark環境變量 (建議不添加,避免和Hadoop的命令衝突)
將spark添加到環境變量,添加以下內容到 /etc/profile
    export SPARK_HOME=/export/servers/spark
    export PATH=$PATH:$SPARK_HOME/bin
  注意:
    hadoop/sbin 的目錄和 spark/sbin 可能會有命令衝突:
        start-all.sh stop-all.sh
  解決方案:
    1.把其中一個框架的 sbin 從環境變量中去掉;
    2.改名 hadoop/sbin/start-all.sh 改爲: start-all-hadoop.sh

分發到其他節點

●通過scp 命令將配置文件分發到其他機器上
scp -r /export/servers/spark node02:/export/servers
scp -r /export/servers/spark node03:/export/servers

啓動Spark集羣和關閉Spark集羣

●集羣啓動和停止
  在主節點上啓動spark集羣
    /export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/sbin/start-all.sh 
 
在主節點上停止spark集羣
    /export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/sbin/start-all.sh 
 
●單獨啓動和停止
  在 master 安裝節點上啓動和停止 master:
    start-master.sh
    stop-master.sh
  在 Master 所在節點上啓動和停止worker(work指的是slaves 配置文件中的主機名)
    start-slaves.sh
    stop-slaves.sh

 啓動後查看WEB界面:http://Master節點IP:8080/

啓動集羣式Spark Shell

●集羣模式啓動spark-shell
/export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/bin/spark-shell --master spark://node01:7077

測試:使用集羣方式進行計算

●注意
集羣模式下程序是在集羣上運行的,不要直接讀取本地文件,應該讀取hdfs上的
因爲程序運行在集羣上,具體在哪個節點上我們運行並不知道,其他節點可能並沒有那個數據文件
●運行程序
sc.textFile("hdfs://node01:8020/wordcount/input/words.txt")
.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
.saveAsTextFile("hdfs://node01:8020/wordcount/output2")

Spark日誌  http://Master節點IP:4040/jobs/

五:standalone-HA 集羣高可用模式

原理:

Spark Standalone集羣是Master-Slaves架構的集羣模式,和大部分的Master-Slaves結構集羣一樣,存在着Master單點故障的問題。
  如何解決這個單點故障的問題,Spark提供了兩種方案:
    1.基於文件系統的單點恢復(Single-Node Recovery with Local File System)--只能用於開發或測試環境。
    2.基於zookeeper的Standby Masters(Standby Masters with ZooKeeper)--可以用於生產環境。

配置 HA

   該HA方案使用起來很簡單,首先啓動一個ZooKeeper集羣,然後在不同節點上啓動Master,注意這些節點需要具有相同的zookeeper配置。

●先停止Sprak集羣
    /export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/sbin/stop-all.sh 
 
●在node01上配置:
    vim /export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/conf/spark-env.sh
 
●註釋掉Master配置
    #export SPARK_MASTER_HOST=node01
●在spark-env.sh添加SPARK_DAEMON_JAVA_OPTS,內容如下:
    export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER  -Dspark.deploy.zookeeper.url=node01:2181,node02:2181,node03:2181  -Dspark.deploy.zookeeper.dir=/spark"
參數說明 
    spark.deploy.recoveryMode:恢復模式
    spark.deploy.zookeeper.url:ZooKeeper的Server地址
    spark.deploy.zookeeper.dir:保存集羣元數據信息的文件、目錄。包括Worker、Driver、Application信息。

分發到其他節點

 cd /export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/conf/

 scp spark-env.sh node02:$PWD            
 scp spark-env.sh node03:$PWD            

啓動ZK集羣

Zookeeper安裝教程👉【傳送門

zkServer.sh start   #啓動
zkServer.sh stop    #關閉

 啓動Spark HA集羣

●node01上啓動Spark集羣執行
    /export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/sbin/start-all.sh
 
●在node02上再單獨只起個master:
    /export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/sbin/start-master.sh
 
●注意:
 在普通模式下啓動spark集羣
 只需要在主節點上執行start-all.sh 就可以了
 在高可用模式下啓動spark集羣
 先需要在任意一臺主節點上執行start-all.sh 
 然後在另外一臺主節點上單獨執行start-master.sh

node01 

 

 node02

 查看WEB界面的變化

http://node01:8080/

http://node02:8080/

可以觀察到有一臺狀態爲StandBy ,當ALIVE宕機後 StandBy就會轉換爲ALIVE狀態進行服務。

測試 HA集羣

切換測試:

●測試主備切換
    1.在node01上使用jps查看master進程id
    2.使用kill -9 id號強制結束該進程
    3.稍等片刻後刷新node02的web界面發現node02爲Alive

 

 計算測試:

●測試集羣模式提交任務
1.集羣模式啓動spark-shell
    /export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/bin/spark-shell --master spark://node01:7077,node02:7077
2.運行程序
sc.textFile("hdfs://node01:8020/wordcount/input/words.txt").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _).saveAsTextFile("hdfs://node01:8020/wordcount/output3")

六:on yarn集羣模式

查看 on Yarn集羣模式的官方文檔👉【傳送門

準備工作:

1.安裝啓動Hadoop(需要使用HDFS和YARN,已經ok)

2.安裝單機版Spark(已經ok)

   注意:不需要集羣,因爲把Spark程序提交給YARN運行本質上是把字節碼給YARN集羣上的JVM運行,但是得有一個東西幫我去把任務提交上個YARN,所以需要一個單機版的Spark,裏面的有spark-shell命令,spark-submit命令

3.修改配置

在spark-env.sh ,添加HADOOP_CONF_DIR配置,指明瞭hadoop的配置文件的位置

vim /export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/conf/spark-env.sh

export HADOOP_CONF_DIR=/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop

Cluster模式 【❤❤❤常用方式❤❤❤】:

●說明

  在企業生產環境中大部分都是cluster部署模式運行Spark應用

  Spark On YARN的Cluster模式 指的是Driver程序運行在YARN集羣上

●補充Driver是什麼:

  運行應用程序的main()函數並創建SparkContext的進程

示例程序:

spark-shell是一個簡單的用來測試的交互式窗口

spark-submit用來提交打成jar包的任務

/export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 2 \
--queue default \
/export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/examples/jars/spark-examples_2.11-2.2.0.jar \
10

 

查看Yarn日誌  👉  http://node01:8088/cluster

client模式[瞭解]

學習測試時使用,開發不用,瞭解即可

Spark On YARN的Client模式 指的是Driver程序運行在提交任務的客戶端

/export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 2 \
--queue default \
/export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/examples/jars/spark-examples_2.11-2.2.0.jar \
10

兩種提交方式的區別:

Cluster和Client模式最本質的區別是:Driver程序運行在哪裏!

運行在YARN集羣中就是Cluster模式,

運行在客戶端就是Client模式

當然還有由本質區別延伸出來的區別。

 

●cluster模式:生產環境中使用該模式

1.Driver程序在YARN集羣中

2.應用的運行結果不能在客戶端顯示

3.該模式下Driver運行ApplicattionMaster這個進程中,如果出現問題,yarn會重啓ApplicattionMaster(Driver)

 

●client模式:

1.Driver運行在Client上的SparkSubmit進程中

2.應用程序運行結果會在客戶端顯示

七:Spark參數詳解

spark-shell

     spark-shellSpark自帶的交互式Shell程序,方便用戶進行交互式編程,用戶可以在該命令行下可以用scala編寫spark程序,適合學習測試時使用!

●示例

  spark-shell可以攜帶參數

  spark-shell --master local[N] 數字N表示在本地模擬N個線程來運行當前任務

  spark-shell --master local[*] *表示使用當前機器上所有可用的資源

  默認不攜帶參數就是--master local[*]

  spark-shell --master spark://node01:7077,node02:7077 表示運行在集羣上

spark-submit

  spark-submit命令用來提交jar包給spark集羣/YARN

   spark-shell交互式編程確實很方便我們進行學習測試,但是在實際中我們一般是使用IDEA開發Spark應用程序打成jar包交給Spark集羣/YARN去執行。

  ❤❤❤ spark-submit命令是我們開發時常用的!!! ❤❤❤

參數總結:

local             本地以一個worker線程運行(例如非並行的情況).
local[N]        本地以K worker 線程 (理想情況下, N設置爲你機器的CPU核數).
local[*]         本地以本機同樣核數的線程運行.
spark://HOST:PORT      連接到指定的Spark standalone cluster master. 端口是你的master集羣配置的端口,缺省值爲7077.
mesos://HOST:PORT    連接到指定的Mesos 集羣. Port是你配置的mesos端口, 默認5050. 或者使用ZK,格式爲 mesos://zk://....
yarn-client       以client模式連接到YARN cluster. 集羣的位置基於HADOOP_CONF_DIR 變量找到.
yarn-cluster     以cluster模式連接到YARN cluster. 集羣的位置基於HADOOP_CONF_DIR 變量找到.

其他參數示例

--master spark://node01:7077    指定 Master 的地址

--name "appName"                     指定程序運行的名稱

--class                                         程序的main方法所在的類

--jars  xx.jar                                 程序額外使用的 jar 包

--driver-memory 512m                Driver運行所需要的內存, 默認1g

--executor-memory 2g                指定每個 executor 可用內存爲 2g, 默認1g

--executor-cores 1                       指定每一個 executor 可用的核數

--total-executor-cores 2               指定整個集羣運行任務使用的 cup 核數爲 2 個

 --queue default                           指定任務的對列

--deploy-mode                             指定運行模式(client/cluster)

●注意:

    如果 worker 節點的內存不足,那麼在啓動 spark-submit的時候,就不能爲 executor分配超出 worker 可用的內存容量。

    如果--executor-cores超過了每個 worker 可用的 cores,任務處於等待狀態。

    如果--total-executor-cores即使超過可用的 cores,默認使用所有的。以後當集羣其他的資源釋放之後,就會被該程序所使用。

    如果內存或單個 executor 的 cores 不足,啓動 spark-submit 就會報錯,任務處於等待狀態,不能正常執行。

八:使用IDEA編寫Spark程序

1、創建Maven項目

 給項目起名字,並選擇項目存儲路徑!

2、本地執行:前提條件你的本機必須配置了Scala並且你的IDEA配置了Scala對應版本的插件

 準備數據

Hadoop Hive 
Hbase Hadoop Hive hive 
Spark Flink Kylin 
Sqoop Flume Kafka Spark Hadoop Hbase
Flink Kylin Spark Spark_Streaming

 編寫代碼並執行查看結果

package com.alibaba.demo01

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD

object Test01 {

  def main(args: Array[String]): Unit = {
    //1.創建SparkContext
    val config = new SparkConf().setAppName("wordcount").setMaster("local[*]")
    val sc = new SparkContext(config)
    sc.setLogLevel("WARN")
    //2.讀取文件
    //A Resilient Distributed Dataset (RDD)彈性分佈式數據集
    //可以簡單理解爲分佈式的集合,但是spark對它做了很多的封裝,
    //讓程序員使用起來就像操作本地集合一樣簡單,這樣大家就很happy了
    val fileRDD: RDD[String] = sc.textFile("C:\\Users\\****\\Desktop\\data\\words.txt")
    //3.處理數據
    //3.1對每一行按空切分並壓平形成一個新的集合中裝的一個個的單詞
    //flatMap是對集合中的每一個元素進行操作,再進行壓平
    val wordRDD: RDD[String] = fileRDD.flatMap(_.split(" "))
    //3.2每個單詞記爲1
    val wordAndOneRDD: RDD[(String, Int)] = wordRDD.map((_, 1))
    //3.3根據key進行聚合,統計每個單詞的數量
    //wordAndOneRDD.reduceByKey((a,b)=>a+b)
    //第一個_:之前累加的結果
    //第二個_:當前進來的數據
    val wordAndCount: RDD[(String, Int)] = wordAndOneRDD.reduceByKey(_ + _)
    //4.收集結果
    val result: Array[(String, Int)] = wordAndCount.collect()
    result.foreach(println)
  }
}

 查詢結果

3、集羣運行:

package com.alibaba.demo01

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD

object Test01 {

  def main(args: Array[String]): Unit = {
    //1.創建SparkContext
    val config = new SparkConf().setAppName("wordcount")//.setMaster("local[*]")
    val sc = new SparkContext(config)
    sc.setLogLevel("WARN")
    //2.讀取文件
    //A Resilient Distributed Dataset (RDD)彈性分佈式數據集
    //可以簡單理解爲分佈式的集合,但是spark對它做了很多的封裝,
    //讓程序員使用起來就像操作本地集合一樣簡單,這樣大家就很happy了
    val fileRDD: RDD[String] = sc.textFile(args(0))
    //3.處理數據
    //3.1對每一行按空切分並壓平形成一個新的集合中裝的一個個的單詞
    //flatMap是對集合中的每一個元素進行操作,再進行壓平
    val wordRDD: RDD[String] = fileRDD.flatMap(_.split(" "))
    //3.2每個單詞記爲1
    val wordAndOneRDD: RDD[(String, Int)] = wordRDD.map((_, 1))
    //3.3根據key進行聚合,統計每個單詞的數量
    //wordAndOneRDD.reduceByKey((a,b)=>a+b)
    //第一個_:之前累加的結果
    //第二個_:當前進來的數據
    val wordAndCount: RDD[(String, Int)] = wordAndOneRDD.reduceByKey(_ + _)
    wordAndCount.saveAsTextFile(args(1))
  }
}

 打包

找到打好的 jar包上傳的Linux系統,在Spark環境中去執行。

/export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/bin/spark-submit \
--class com.alibaba.demo01.Test01 \
--master yarn \
--deploy-mode cluster \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 2 \
--queue default \
/opt/demo01-1.0-SNAPSHOT.jar hdfs://node01:8020/wordcount/input/words.txt hdfs://node01:8020/wordcount/outputjar

 

您真不容易,這麼長你都看完了獎勵一下自己,給作者點個贊吧😂!!!

👇看完點贊👍 養成習慣😘 !!!!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章