禁用共享jar包上傳,加快任務啓動

禁用共享jar包上傳,加快任務啓動

發現啓動spark-sql的時候比較慢,腫麼了?平時爲減少一堆信息干擾,console沒有設置INFO級別,需要改回去看看怎麼回事。
vi log4j.properties
log4j.rootCategory=WARN, console
改成
log4j.rootCategory=INFO, console
發現了,一個280M的共享jar包每次啓動都上傳一次。天哪!!!!
插圖:


於是搜到:
Spark優化:禁止應用程序將依賴的Jar包傳到HDFS
http://www.iteblog.com/archives/1173

vi spark-defaults.conf
spark.yarn.jar=hdfs://mycluster/user/spark/lib/spark-assembly-1.5.0-cdh5.5.0-hadoop2.6.0-cdh5.5.0.jar
修改後,再次觀察:重要的一條看到了。。。
Source and destination file systems are the same. Not copying hdfs://mycluster/user/spark/lib/spark-assembly-1.5.0-cdh5.5.0-hadoop2.6.0-cdh5.5.0.jar
省去這個上傳動作,快多了。

插圖:


看看“Environment”,有新發現,相比之前多了一個spark.yarn.jar屬性。



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章