spark-submit 命令使用詳解

spark-submit 用戶打包 Spark 應用程序並部署到 Spark 支持的集羣管理氣上，命令語法如下：

spark-submit [options] <python file> [app arguments]

app arguments 是傳遞給應用程序的參數，常用的命令行參數如下所示：

–master: 設置主節點 URL 的參數。支持：
- local：本地機器。
- spark://host:port：遠程 Spark 單機集羣。
- yarn：yarn 集羣
–deploy-mode：允許選擇是否在本地（使用 client 選項）啓動 Spark 驅動程序，或者在集羣內（使用 cluster 選項）的其中一臺工作機器上啓動。默認值是 client。
–name：應用程序名稱，也可在程序內設置。
–py-files：.py, .egg 或者 .zip 文件的逗號分隔列表，包括 Python 應用程序。這些文件將分發給每個執行節點。
–files：逗號分隔的文件列表，這些文件將分發給每個執行節點。
–conf：動態地改變應用程序的配置。
–driver-memory：指定應用程序在驅動節點上分配多少內存的參數，類似與 10000M， 2G。默認值是 1024M。
–executor-memory：指定每個執行節點上爲應用程序分配的內存，默認 1G。
–num-executors：指定執行器節點數。
–help：展示幫助信息和退出。

以下均是在 yarn 集羣提交的任務。

1、默認設置: 會將所有日誌和系統輸出結果輸出到 spark-submit 的 client 上

spark-submit --master yarn code1.py

code1.py

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('Test_Code1').enableHiveSupport().getOrCreate()

spark.sql("select count(*) from default.test_table").show()

2、設置 Executor 的日誌級別，Executor 執行的細節（WARN 以下級別的日誌）不會輸出到 client 中

spark-submit --master yarn code2.py

code2.py

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('Test_Code1').enableHiveSupport().getOrCreate()

sc = spark.sparkContext
sc.setLogLevel("WARN")

spark.sql("select count(*) from default.test_table").show()

3、使用 cluster 模式

spark-submit --master yarn --deploy-mode cluster code1.py

–deploy-mode 可選 cluster 或 client，cluster 模式下，在 spark-submit 的 client 服務器上不會輸出日誌和系統輸出，僅輸出如下語句。只能在 Hadoop 集羣上才能看到執行細節和輸出

2019-09-06 00:00:00 INFO  Client:54 - Application report for application_1556516318747_25363 (state: RUNNING)

4、自定義依賴的模塊或讀取文件

spark-submit --master yarn --files file1.txt --py-files code4.py code3.py

code3.py

from code4 import code4func
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('Test_Code1').enableHiveSupport().getOrCreate()

sc = spark.sparkContext
sc.setLogLevel("WARN")

table = code4func()
with open("file1.txt", 'rt') as rf:
    db = rf.readline().strip()

spark.sql("select count(*) from {}.{}".format(db, table)).show()

code4.py

def code4func():
    return "test_table"

file1.txt

default

自定義的 package 可以打包成 egg 文件上傳(該部分代碼參考《PySpark 實戰》P:178)。例如有一個自定義創建的 package：

additionalCode/
├── setup.py
└── utilities
    ├── __init__.py
    ├── base.py
    ├── converters
    │   ├── __init__.py
    │   ├── base.py
    │   └── distance.py
    └── geoCalc.py

創建一個 egg 文件：

python setup.py bdist_egg

生成了 dist 文件夾下的 PySparkUtilities-0.1.dev0-py3.6.egg 文件

提交作業：

spark-submit --master yarn --py-files additionalCode/dist/PySparkUtilities-0.1.dev0-py3.6.egg calculatingGeoDistance.py

5、配置集羣資源

當執行的 job 需要更多資源時，可以自定義配置使用的資源。

spark-submit --master yarn --driver-memory 15g \
    --num-executors 10 --executor-cores 4 --executor-memory 15G \
    --conf "spark.executor.memoryOverhead=15G" \
    code1.py

或在程序內設置

spark-submit code5.py

code5.py

import pyspark
from pyspark.sql import SparkSession

conf1 = pyspark.SparkConf().setAll([
            ('spark.executor.memory', '15g'),
            ('spark.executor.memoryOverhead', '16g'),
            ('spark.executor.cores', '4'),
            ('spark.num.executors', '10'),
            ('spark.driver.memory', '16g')])

spark = SparkSession.builder.appName('Test_Code1').enableHiveSupport().config(conf=conf1).getOrCreate()

spark.sql("select count(*) from default.test_table").show()

6、使用 Python 虛擬環境

當使用 cluster 或應用某些第三方包的時候，在 Executor 中會出現 ImportError 的錯誤，導致 job 執行失敗，如下提交方式會報錯：

spark-submit --master yarn --deploy-mode cluster code6.py

報錯信息：

Traceback (most recent call last):
  File "code6.py", line 2, in <module>
    import numpy as np
ImportError: No module named numpy

這是由於節點中的 python 環境沒有安裝相應的依賴包，此時需要創建一個 python 虛擬環境並安裝所有的依賴包。

創建虛擬環境 python-env，打包爲 venv.zip：

virtualenv python-env

venv.zip 部分目錄結構如下所示：

venv.zip
└──python-env/
    ├── bin
    │   └── python
    ├── include
    ├── lib
    └── lib64

spark-submit 命令：

spark-submit --master yarn  --deploy-mode cluster \
    --archives ./venv.zip#env \
    --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=env/python-env/bin/python \
    code6.py

code6.py

from pyspark.sql import SparkSession
import numpy as np

spark = SparkSession.builder.appName('Test_Code1').enableHiveSupport().getOrCreate()

sc = spark.sparkContext
sc.setLogLevel("WARN")

arr = np.array([1, 2, 3])
print(arr)

spark.sql("select count(*) from default.test_table").show()

spark-submit 命令使用詳解

spark-submit 命令使用詳解

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

Win10 設置Python定時任務

Django + uWSGI + nginx 部署 Python Web 應用

Python 圖像處理的庫 Pillow，opencv 和 scikit-image 的基本用法

Numpy 拼接數組的各種方式

spark-submit 命令使用詳解

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結