pyspark入门

python脚本方式执行spark程序,好处是不用编译,写完就走!

示例脚本如下:

from pyspark import SparkConf, SparkContext 

conf = SparkConf().setAppName("myTest").setMaster("local")
sc = SparkContext(conf=conf)
x = [1,2,3]
rdd = sc.parallelize(x)
count=rdd.count()
print("len=",count)

# read textfile
rdd2=sc.textFile("c:\\spark\\doc\\word.txt")

def f(x):return print(x)

rdd2.foreach(f)
print("rdd2:",rdd2.count())

保存为"test1.py"文件。然后执行spark-submit test1.py提交执行即可。

pyspark比scala方式要方便多了。

word.txt内容:

hello

world

1

执行结果:

len= 3
hello
workd
1
rdd2: 3

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章