01-Spark的Local模式與應用開發入門

1 Spark 的 local 模式

Spark 運行模式之一，用於在本地機器上單機模擬分佈式計算的環境。在 local 模式下，Spark 會使用單個 JVM 進程來模擬分佈式集羣行爲，所有 Spark 組件（如 SparkContext、Executor 等）都運行在同一個 JVM 進程中，不涉及集羣間通信，適用本地開發、測試和調試。

1.1 重要特點和使用場景

本地開發和測試：在開發 Spark 應用程序時，可以使用 local 模式進行本地開發和測試。這樣可以避免連接到集羣的開銷，加快開發迭代速度。同時，可以模擬集羣環境中的作業執行流程，驗證代碼邏輯和功能。
單機數據處理：對於較小規模的數據處理任務，例如處理數百兆或數個 GB 的數據，可以使用 local 模式進行單機數據處理。這樣可以充分利用本地機器的資源，快速完成數據處理任務。
調試和故障排查：在調試和故障排查過程中，使用 local 模式可以更方便地查看日誌、變量和數據，加快發現和解決問題的速度。可以在本地環境中模擬各種情況，驗證代碼的健壯性和可靠性。
教學和學習：對於 Spark 的初學者或教學場景，local 模式提供了一個簡單直觀的學習環境。學習者可以在本地環境中快速運行 Spark 應用程序，理解 Spark 的基本概念和工作原理。

1.2 使用 local 模式

設置 SparkConf 中的 spark.master 屬性爲 "local" 來指定運行模式。如Scala中這樣設置：

import org.apache.spark.{SparkConf, SparkContext}

object SparkLocalExample {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("SparkLocalExample").setMaster("local")
    val sc = new SparkContext(conf)

    // 在這裏編寫你的 Spark 應用程序邏輯

    sc.stop()  // 停止 SparkContext
  }
}

1.3 注意

local 模式僅適用於小規模數據處理和本地開發測試場景，並不適用於生產環境的大規模數據處理任務。在生產環境中，需要使用集羣模式（如 standalone、YARN、Mesos 等）來運行 Spark 應用程序，以便充分利用集羣資源和提高作業的並行度。

2 Spark應用開發

2.1 SparkContext

通常一個 Spark 程序對應一個 SparkContext 實例。SparkContext 是 Spark 應用程序的主入口點，負責與集羣進行通信，管理作業的調度和執行，以及維護應用程序的狀態。因此，一個 SparkContext 實例通常對應一個獨立的 Spark 應用程序。

在正常情況下，創建多個 SparkContext 實例是不推薦的，因爲這可能會導致資源衝突、內存泄漏和性能下降等問題。Spark 本身設計爲單個應用程序對應一個 SparkContext，以便於有效地管理資源和執行作業。

然而，在某些特殊情況下，可能會存在多個 SparkContext 實例的情況：

測試和調試：在測試和調試階段，有時會創建額外的 SparkContext 實例來模擬不同的場景或測試不同的配置。這樣可以更好地理解 Spark 應用程序的行爲和性能，以便進行優化和調整。
交互式環境：在交互式環境下（如 Spark Shell、Jupyter Notebook 等），有時會創建多個 SparkContext 實例來進行實驗、測試或不同的作業執行。這些 SparkContext 實例可能是由不同的用戶或會話創建的，用於並行執行不同的任務或查詢。
多應用程序共享資源：在同一個集羣上運行多個獨立的 Spark 應用程序，並且它們需要共享同一組集羣資源時，可能會創建多個 SparkContext 實例來管理各自的作業和資源。這種情況下，需要確保各個應用程序的 SparkContext 實例能夠正確地管理資源，避免資源衝突和競爭。

創建多個 SparkContext 實例時需要謹慎處理，並且需要確保它們能夠正確地管理資源、避免衝突，並且不會影響其他應用程序或作業的正常運行。在生產環境中，建議僅使用一個 SparkContext 實例來管理整個應用程序。

SparkContext是Spark應用的入口點，負責初始化Spark應用所需要的環境和數據結構。

2.2 運行一個Spark應用的步驟

創建SparkContext，這會初始化Spark應用環境、資源和驅動程序
通過SparkContext 創建RDD、DataFrame和Dataset
在RDD、DataFrame和Dataset上進行轉換和行動操作
關閉SparkContext來關閉Spark應用

所以，一個標準的Spark應用對應一個SparkContext實例。通過創建SparkContext來開始我們的程序，在其上執行各種操作，並在結束時關閉該實例。

3 案例

3.1 測試數據文件

input.txt

JavaEdge,JavaEdge,JavaEdge
go,go
scalascala

3.2 代碼

package com.javaedge.bigdata.chapter02

import org.apache.spark.{SparkConf, SparkContext}

/**
 * 詞頻統計案例
 * 輸入：文件
 * 需求：統計出文件中每個單詞出現的次數
 * 1）讀每一行數據
 * 2）按照分隔符把每一行的數據拆成單詞
 * 3）每個單詞賦上次數爲1
 * 4）按照單詞進行分發，然後統計單詞出現的次數
 * 5）把結果輸出到文件中
 * 輸出：文件
 */
object SparkWordCountApp {

  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf()
    val sc = new SparkContext(sparkConf)
    val rdd = sc.textFile("/Users/javaedge/Downloads/sparksql-train/data/input.txt")
    rdd.collect().foreach(println)
    sc.stop()
}

發現啓動後，報錯啦：

ERROR SparkContext: Error initializing SparkContext.
org.apache.spark.SparkException: A master URL must be set in your configuration
	at org.apache.spark.SparkContext.<init>(SparkContext.scala:368)
	at com.javaedge.bigdata.chapter02.SparkWordCountApp$.main(SparkWordCountApp.scala:25)
	at com.javaedge.bigdata.chapter02.SparkWordCountApp.main(SparkWordCountApp.scala)
ERROR Utils: Uncaught exception in thread main

必須設置集羣？我纔剛入門大數據誒，這麼麻煩？勸退，不學了！還好 spark 也支持簡單部署：

val sparkConf = new SparkConf().setMaster("local")

重啓，又報錯：

ERROR SparkContext: Error initializing SparkContext.
org.apache.spark.SparkException: An application name must be set in your configuration
	at org.apache.spark.SparkContext.<init>(SparkContext.scala:371)
	at com.javaedge.bigdata.chapter02.SparkWordCountApp$.main(SparkWordCountApp.scala:25)
	at com.javaedge.bigdata.chapter02.SparkWordCountApp.main(SparkWordCountApp.scala)
ERROR Utils: Uncaught exception in thread main

val sparkConf = new SparkConf().setMaster("local").setAppName("SparkWordCountApp")

成功了！

val rdd = sc.textFile("/Users/javaedge/Downloads/sparksql-train/data/input.txt")
rdd.flatMap(_.split(","))
  .map(word => (word, 1)).collect().foreach(println)
sc.stop()


output:
(pk,1)
(pk,1)
(pk,1)
(jepson,1)
(jepson,1)
(xingxing,1)

3.3 輸出到文件

rdd.flatMap(_.split(","))
  // 3）每個單詞賦上次數爲1
  .map(word => (word, 1))
  .reduceByKey(_ + _)
  .saveAsTextFile("/Users/javaedge/Downloads/sparksql-train/data/output.txt")

3.4 按頻率降序排

// 2）按照分隔符把每一行的數據拆成單詞
rdd.flatMap(_.split(","))
  // 3）每個單詞賦上次數爲1
  .map(word => (word, 1))
  // 4）按照單詞進行分發，然後統計單詞出現的次數
  .reduceByKey(_ + _)
  // 結果按單詞頻率降序排列,既然之前是 <單詞，頻率> 且 sortKey 只能按 key 排序，那就在這裏反轉 kv 順序
  .map(x => (x._2, x._1))
  .collect().foreach(println)

output：
(2,go)
(1,scalascala)
(3,JavaEdge)

顯然結果不符合期望。如何調整呢？再翻轉一次！

rdd.flatMap(_.split(","))
  .map(word => (word, 1))
  .reduceByKey(_ + _)
  // 結果按單詞頻率降序排列,既然之前是 <單詞，頻率> 且 sortKey 只能按 key 排序，那就在這裏反轉 kv 順序
  .map(x => (x._2, x._1))
  .sortByKey(false)
  .map(x => (x._2, x._1))
  .collect().foreach(println)

output：
(JavaEdge,3)
(go,2)
(scalascala,1)

4 spark-shell啓動

javaedge@JavaEdgedeMac-mini bin % ./spark-shell --master local
23/03/23 16:28:58 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://172.16.1.55:4040
Spark context available as 'sc' (master = local, app id = local-1679560146321).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.4.3
      /_/

Using Scala version 2.11.12 (OpenJDK 64-Bit Server VM, Java 1.8.0_362)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

4 通過YARN提交任務

$ ./spark-submit --master yarn \
  --deploy-mode client \
  --class <main_class> \
  --num-executors <num_executors> \
  --executor-memory <executor_memory> \
  --executor-cores <executor_cores> \
  <path_to_jar_or_py_file> \
  <app_arguments>

各參數含義：

--master yarn: 指定使用YARN作爲Spark的資源管理器。
--deploy-mode client: 指定部署模式爲client模式，即Driver程序運行在提交Spark任務的客戶端機器上。
--class <main_class>: 指定Spark應用程序的主類。
--num-executors <num_executors>: 指定執行器的數量。
--executor-memory <executor_memory>: 指定每個執行器的內存大小。
--executor-cores <executor_cores>: 指定每個執行器的核心數。
<path_to_jar_or_py_file>: 指定要提交的Spark應用程序的JAR文件或Python文件的路徑。
<app_arguments>: 指定Spark應用程序的參數。

如提交一個Scala版本的Spark應用程序的命令：

$ ./spark-submit --master yarn \
  --deploy-mode client \
  --class com.example.MySparkApp \
  --num-executors 4 \
  --executor-memory 2G \
  --executor-cores 2 \
  /path/to/my-spark-app.jar \
  arg1 arg2 arg3

如果你要提交一個Python版本的Spark應用程序，可以使用以下命令：

$ ./spark-submit --master yarn \
  --deploy-mode client \
  /path/to/my-spark-app.py \
  arg1 arg2 arg3

這樣就可以通過YARN提交Spark任務，Spark會向YARN請求資源並在集羣上執行任務。

關注我，緊跟本系列專欄文章，咱們下篇再續！

作者簡介：魔都技術專家兼架構，多家大廠後端一線研發經驗，各大技術社區頭部專家博主。具有豐富的引領團隊經驗，深厚業務架構和解決方案的積累。

負責：

中央/分銷預訂系統性能優化

活動&優惠券等營銷中臺建設

交易平臺及數據中臺等架構和開發設計

車聯網核心平臺-物聯網連接平臺、大數據平臺架構設計及優化

目前主攻降低軟件複雜性設計、構建高可用系統方向。

參考：

編程嚴選網

本文由博客一文多發平臺 OpenWrite 發佈！

01-Spark的Local模式與應用開發入門

1 Spark 的 local 模式

1.1 重要特點和使用場景

1.2 使用 local 模式

1.3 注意

2 Spark應用開發

2.1 SparkContext

2.2 運行一個Spark應用的步驟

3 案例

3.1 測試數據文件

3.2 代碼

3.3 輸出到文件

3.4 按頻率降序排

4 spark-shell啓動

4 通過YARN提交任務

容器中nginx無法使用同一個網絡下的容器域名

Python: SunMoonTimeCalculator

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

nodejs學習07——API

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

05-應用級開發者 AI 時代破局點

02-大廠電商設計解析之商品管理系統

2024年最好用的10款ER圖神器！

基於SpringWeb MultipartFile文件上傳、下載功能

IDEA 2024.1到底更新啥有用的？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結