spark submit參數介紹

你可以通過spark-submit --help或者spark-shell --help來查看這些參數。

使用格式:

./bin/spark-submit \

--class <main-class> \

--master <master-url> \

--deploy-mode <deploy-mode> \

--conf <key>=<value> \

... # other options

<application-jar> \

spark-submit 詳細參數說明

參數名	參數說明
--master	master 的地址，提交任務到哪裏執行，例如 spark://host:port, yarn, local
--deploy-mode	在本地 (client) 啓動 driver 或在 cluster 上啓動，默認是 client
--class	應用程序的主類，僅針對 java 或 scala 應用
--name	應用程序的名稱
--jars	用逗號分隔的本地 jar 包，設置後，這些 jar 將包含在 driver 和 executor 的 classpath 下
--packages	包含在driver 和executor 的 classpath 中的 jar 的 maven 座標
--exclude-packages	爲了避免衝突而指定不包含的 package
--repositories	遠程 repository
--conf PROP=VALUE	指定 spark 配置屬性的值，例如 -conf spark.executor.extraJavaOptions="-XX:MaxPermSize=256m"
--properties-file	加載的配置文件，默認爲 conf/spark-defaults.conf
--driver-memory	Driver內存，默認 1G
--driver-java-options	傳給 driver 的額外的 Java 選項
--driver-library-path	傳給 driver 的額外的庫路徑
--driver-class-path	傳給 driver 的額外的類路徑
--driver-cores	Driver 的核數，默認是1。在 yarn 或者 standalone 下使用
--executor-memory	每個 executor 的內存，默認是1G
--total-executor-cores	所有 executor 總共的核數。僅僅在 mesos 或者 standalone 下使用
--num-executors	啓動的 executor 數量。默認爲2。在 yarn 下使用
--executor-core	每個 executor 的核數。在yarn或者standalone下使用

試例：

# Run application locally on 8 cores(本地模式8核)

./bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master local[8] \

/path/to/examples.jar \

100

# Run on a Spark standalone cluster in client deploy mode(standalone client模式)

./bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master spark://207.184.161.138:7077 \

--executor-memory 20G \

--total-executor-cores 100 \

/path/to/examples.jar \

1000

# Run on a Spark standalone cluster in cluster deploy mode with supervise(standalone cluster模式使用supervise)

./bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master spark://207.184.161.138:7077 \

--deploy-mode cluster \

--supervise \

--executor-memory 20G \

--total-executor-cores 100 \

/path/to/examples.jar \

1000

# Run on a YARN cluster(YARN cluster模式)

export HADOOP_CONF_DIR=XXX

./bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master yarn \

--deploy-mode cluster \ # can be client for client mode

--executor-memory 20G \

--num-executors 50 \

/path/to/examples.jar \

1000

# Run on a Mesos cluster in cluster deploy mode with supervise(Mesos cluster模式使用supervise)

./bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master mesos://207.184.161.138:7077 \

--deploy-mode cluster \

--supervise \

--executor-memory 20G \

--total-executor-cores 100 \

http://path/to/examples.jar \

1000

在公司使用最多的是spark on yarn模式，下面主要講spark on yarn

資源參數調優

所謂的Spark資源參數調優，其實主要就是對Spark運行過程中各個使用資源的地方，通過調節各種參數，來優化資源使用的效率，從而提升Spark作業的執行性能。

以下參數就是Spark中主要的資源參數，每個參數都對應着作業運行原理中的某個部分，我們同時也給出了一個調優的參考值。

num-executors

參數說明：

該參數用於設置Spark作業總共要用多少個Executor進程來執行。Driver在向YARN集羣管理器申請資源時，YARN集羣管理器會儘可能按照你的設置來在集羣的各個工作節點上，啓動相應數量的Executor進程。這個參數非常之重要，如果不設置的話，默認只會給你啓動少量的Executor進程，此時你的Spark作業的運行速度是非常慢的。

參數調優建議：

每個Spark作業的運行一般設置50~100個左右的Executor進程比較合適，設置太少或太多的Executor進程都不好。設置的太少，無法充分利用集羣資源；

設置的太多的話，大部分隊列可能無法給予充分的資源。

executor-memory

參數說明：

該參數用於設置每個Executor進程的內存。Executor內存的大小，很多時候直接決定了Spark作業的性能，而且跟常見的JVM OOM異常，也有直接的關聯。

參數調優建議：

每個Executor進程的內存設置4G~8G較爲合適。但是這只是一個參考值，具體的設置還是得根據不同部門的資源隊列來定。可以看看自己團隊的資源隊列的最大內存限制是多少，num-executors乘以executor-memory，是不能超過隊列的最大內存量的。此外，如果你是跟團隊裏其他人共享這個資源隊列，那麼申請的內存量最好不要超過資源隊列最大總內存的1/3~1/2，避免你自己的Spark作業佔用了隊列所有的資源，導致別的同學的作業無法運行。

executor-cores

參數說明：

該參數用於設置每個Executor進程的CPU core數量。這個參數決定了每個Executor進程並行執行task線程的能力。因爲每個CPU core同一時間只能執行一個task線程，因此每個Executor進程的CPU core數量越多，越能夠快速地執行完分配給自己的所有task線程。

參數調優建議：

Executor的CPU core數量設置爲2~4個較爲合適。同樣得根據不同部門的資源隊列來定，可以看看自己的資源隊列的最大CPU core限制是多少，再依據設置的Executor數量，來決定每個Executor進程可以分配到幾個CPU core。同樣建議，如果是跟他人共享這個隊列，那麼num-executors * executor-cores不要超過隊列總CPU core的1/3~1/2左右比較合適，也是避免影響其他同學的作業運行。

driver-memory

參數說明：

該參數用於設置Driver進程的內存。

參數調優建議：

Driver的內存通常來說不設置，或者設置1G左右應該就夠了。唯一需要注意的一點是，如果需要使用collect算子將RDD的數據全部拉取到Driver上進行處理，那麼必須確保Driver的內存足夠大，否則會出現OOM內存溢出的問題。

spark.default.parallelism

參數說明：

該參數用於設置每個stage的默認task數量。這個參數極爲重要，如果不設置可能會直接影響你的Spark作業性能。

參數調優建議：

Spark作業的默認task數量爲500~1000個較爲合適。很多同學常犯的一個錯誤就是不去設置這個參數，那麼此時就會導致Spark自己根據底層HDFS的block數量來設置task的數量，默認是一個HDFS block對應一個task。通常來說，Spark默認設置的數量是偏少的（比如就幾十個task），如果task數量偏少的話，就會導致你前面設置好的Executor的參數都前功盡棄。試想一下，無論你的Executor進程有多少個，內存和CPU有多大，但是task只有1個或者10個，那麼90%的Executor進程可能根本就沒有task執行，也就是白白浪費了資源！因此Spark官網建議的設置原則是，設置該參數爲num-executors * executor-cores的2~3倍較爲合適，比如Executor的總CPU core數量爲300個，那麼設置1000個task是可以的，此時可以充分地利用Spark集羣的資源。

spark.storage.memoryFraction

參數說明：

該參數用於設置RDD持久化數據在Executor內存中能佔的比例，默認是0.6。也就是說，默認Executor 60%的內存，可以用來保存持久化的RDD數據。根據你選擇的不同的持久化策略，如果內存不夠時，可能數據就不會持久化，或者數據會寫入磁盤。

參數調優建議：

如果Spark作業中，有較多的RDD持久化操作，該參數的值可以適當提高一些，保證持久化的數據能夠容納在內存中。避免內存不夠緩存所有的數據，導致數據只能寫入磁盤中，降低了性能。但是如果Spark作業中的shuffle類操作比較多，而持久化操作比較少，那麼這個參數的值適當降低一些比較合適。此外，如果發現作業由於頻繁的gc導致運行緩慢（通過spark web ui可以觀察到作業的gc耗時），意味着task執行用戶代碼的內存不夠用，那麼同樣建議調低這個參數的值。

spark.shuffle.memoryFraction

參數說明：

該參數用於設置shuffle過程中一個task拉取到上個stage的task的輸出後，進行聚合操作時能夠使用的Executor內存的比例，默認是0.2。也就是說，Executor默認只有20%的內存用來進行該操作。shuffle操作在進行聚合時，如果發現使用的內存超出了這個20%的限制，那麼多餘的數據就會溢寫到磁盤文件中去，此時就會極大地降低性能。

參數調優建議：

如果Spark作業中的RDD持久化操作較少，shuffle操作較多時，建議降低持久化操作的內存佔比，提高shuffle操作的內存佔比比例，避免shuffle過程中數據過多時內存不夠用，必須溢寫到磁盤上，降低了性能。此外，如果發現作業由於頻繁的gc導致運行緩慢，意味着task執行用戶代碼的內存不夠用，那麼同樣建議調低這個參數的值。

資源參數的調優，沒有一個固定的值，需要根據自己的實際情況（包括Spark作業中的shuffle操作數量、RDD持久化操作數量以及spark web ui中顯示的作業gc情況），合理地設置上述參數。

資源參數參考示例

以下是一份spark-submit命令的示例，大家可以參考一下，並根據自己的實際情況進行調節：

./bin/spark-submit \

--master yarn-cluster \

--num-executors 100 \

--executor-memory 6G \

--executor-cores 4 \

--driver-memory 1G \

--conf spark.default.parallelism=1000 \

--conf spark.storage.memoryFraction=0.5 \

--conf spark.shuffle.memoryFraction=0.3 \

spark submit參數及調優

spark submit參數介紹

spark-submit 詳細參數說明

# Run application locally on 8 cores(本地模式8核)

# Run on a Spark standalone cluster in client deploy mode(standalone client模式)

# Run on a Spark standalone cluster in cluster deploy mode with supervise(standalone cluster模式使用supervise)

# Run on a YARN cluster(YARN cluster模式)

# Run on a Mesos cluster in cluster deploy mode with supervise(Mesos cluster模式使用supervise)

資源參數調優

num-executors

executor-memory

executor-cores

driver-memory

spark.default.parallelism

spark.storage.memoryFraction

spark.shuffle.memoryFraction

資源參數參考示例

jsp文件報錯信息 The superclass “javax.servlet.http.HttpServlet“ was not found on the Java Build Path

Flink VS Spark 部署模式對比

正則可視化工具

普通用戶 linux用tar解壓文件無法 open: 沒有那個文件或目錄

電商數倉腳本

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結