PySpark RDD 之 foreach

1. pyspark 版本

       2.3.0版本

 

2. 官網

foreach(f)[source]

Applies a function to all elements of this RDD.

中文: 將函數應用於此RDD的所有元素。

>>> def f(x): print(x)
>>> sc.parallelize([1, 2, 3, 4, 5]).foreach(f)

 

3. 我的代碼

from pyspark import SparkContext, SparkConf
conf = SparkConf().setMaster("local").setAppName("foreach")
sc = SparkContext(conf=conf)
lines = sc.parallelize([1, 2, 3, 4, 5])
print('lines= ', lines.collect())

>>> lines=  [1, 2, 3, 4, 5]


def f(x):
    print(x)
def tranformtion(x):
    temp_list = []
    for i in range(x):
        temp_list.append(i)
    return temp_list
# rdd = lines.flatMap(lambda x:tranformtion(x))
rdd = lines.map(lambda x:tranformtion(x)).foreach(f)

後臺打印:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章