最近朋友問我spark是啥,其實我也不知道,但是既然開源了,想必看看文檔,看看示例,自己也能清楚個7788.。
廢話不多,先從github 上下載代碼 git clone https://github.com/apache/spark.git
下載完畢之後,到spark 執行 build/mvn -DskipTests clean package
build success 之後, ./bin/spark-shell 之後 運行sc.parallelize(1 to 1000).count() 返回1000 即可
完了之後,就是怎麼運行我們自己寫的程序呢? 還是那spark中的例子來看,如何wordcount
接下來就得啓動spark
先啓動 master ./sbin/start-master.sh 再啓動./sbin/start-slave.sh 下圖表明spark已經可以工作了。
接下來 spark-submit來提交這個job
~/spark/code/./bin/spark-submit --master spark://ubuntu:7077 --class org.apache.spark.examples.JavaWordCount /home/ak/spark/code/spark/examples/target/original-spark-examples_2.11-2.3.0-SNAPSHOT.jar /home/ak/spark/resources/1.txt
運行成功,接下來將自己寫一個jar來執行代碼中kafkawordcount的例子