通過spark-submit 提交任務到spark on yarn上
./spark-submit --class WordCount --master yarn --executor-memory 512M --total-executor-cores 2 /opt/sparkDemo-1.0-SNAPSHOT.jar
yarn模式下master 填yarn即可,spark會自行去從yarn的配置文件中獲取yarn的地址
打開spark shell
進入到spark目錄
打開 Python 版本的 Spark shell
bin/pyspark
打開 Scala版本的 Spark shell
bin/spark-shell
退出shell
按 Ctrl-D
spark 用戶頁面的地址
http://[ipaddress]:4040
Spark Context 的創建
SparkConf conf = new SparkConf().setAppName("wordCount");
JavaSparkContext sc = new JavaSparkContext(conf);
RDD的創建
對一個集合進行並行化
JavaRDD<String> lines = sc.parallelize(Arrays.asList("pandas", "i like pandas"));
從文件創建RDD
JavaRDD<String> lines = sc.textFile("file:///path/to/README.md");