python脚本方式执行spark程序,好处是不用编译,写完就走!
示例脚本如下:
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("myTest").setMaster("local")
sc = SparkContext(conf=conf)
x = [1,2,3]
rdd = sc.parallelize(x)
count=rdd.count()
print("len=",count)
# read textfile
rdd2=sc.textFile("c:\\spark\\doc\\word.txt")
def f(x):return print(x)
rdd2.foreach(f)
print("rdd2:",rdd2.count())
保存为"test1.py"文件。然后执行spark-submit test1.py提交执行即可。
pyspark比scala方式要方便多了。
word.txt内容:
hello
world
1
执行结果:
len= 3
hello
workd
1
rdd2: 3