pyspark入門

python腳本方式執行spark程序,好處是不用編譯,寫完就走!

示例腳本如下:

from pyspark import SparkConf, SparkContext 

conf = SparkConf().setAppName("myTest").setMaster("local")
sc = SparkContext(conf=conf)
x = [1,2,3]
rdd = sc.parallelize(x)
count=rdd.count()
print("len=",count)

# read textfile
rdd2=sc.textFile("c:\\spark\\doc\\word.txt")

def f(x):return print(x)

rdd2.foreach(f)
print("rdd2:",rdd2.count())

保存爲"test1.py"文件。然後執行spark-submit test1.py提交執行即可。

pyspark比scala方式要方便多了。

word.txt內容:

hello

world

1

執行結果:

len= 3
hello
workd
1
rdd2: 3

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章