python腳本方式執行spark程序,好處是不用編譯,寫完就走!
示例腳本如下:
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("myTest").setMaster("local")
sc = SparkContext(conf=conf)
x = [1,2,3]
rdd = sc.parallelize(x)
count=rdd.count()
print("len=",count)
# read textfile
rdd2=sc.textFile("c:\\spark\\doc\\word.txt")
def f(x):return print(x)
rdd2.foreach(f)
print("rdd2:",rdd2.count())
保存爲"test1.py"文件。然後執行spark-submit test1.py提交執行即可。
pyspark比scala方式要方便多了。
word.txt內容:
hello
world
1
執行結果:
len= 3
hello
workd
1
rdd2: 3