Spark基本操作----持續更新中

通過spark-submit 提交任務到spark on yarn上

./spark-submit --class WordCount --master yarn --executor-memory 512M --total-executor-cores 2 /opt/sparkDemo-1.0-SNAPSHOT.jar

yarn模式下master 填yarn即可,spark會自行去從yarn的配置文件中獲取yarn的地址

打開spark shell

進入到spark目錄

打開 Python 版本的 Spark shell
bin/pyspark
打開 Scala版本的 Spark shell
bin/spark-shell

退出shell

按 Ctrl-D

spark 用戶頁面的地址

http://[ipaddress]:4040

Spark Context 的創建

SparkConf conf = new SparkConf().setAppName("wordCount");
JavaSparkContext sc = new JavaSparkContext(conf);

RDD的創建

對一個集合進行並行化
JavaRDD<String> lines = sc.parallelize(Arrays.asList("pandas", "i like pandas"));
從文件創建RDD
JavaRDD<String> lines = sc.textFile("file:///path/to/README.md");
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章