PySpark 之 flatMap

原創

2020-06-29 15:59

1. pyspark 版本

2.3.0版本

2. 官網

flatMap(f, preservesPartitioning=False)[source]

Return a new RDD by first applying a function to all elements of this RDD, and then flattening the results.

中文翻譯：首先向該RDD的所有元素應用函數，然後將結果展平，以返回新的RDD。

>>> rdd = sc.parallelize([2, 3, 4])
>>> sorted(rdd.flatMap(lambda x: range(1, x)).collect())
[1, 1, 1, 2, 2, 3]
>>> sorted(rdd.flatMap(lambda x: [(x, x), (x, x)]).collect())
[(2, 2), (2, 2), (3, 3), (3, 3), (4, 4), (4, 4)]

3. 我的代碼

案列1

from pyspark import SparkContext, SparkConf
conf = SparkConf().setMaster("local").setAppName("flatMap")
sc = SparkContext(conf=conf)
rdd1 = sc.parallelize(['hello', 'You are very good'])
new_rdd1 = rdd1.flatMap(lambda x: x.split())
print('new_rdd1 = ', new_rdd1.collect())


>>> new_rdd1 =  ['hello', 'You', 'are', 'very', 'good']

案列2

rdd2 = sc.parallelize([['a', 'b'], ['d', 'c']])
new_rdd2 = rdd2.flatMap(lambda x:x)
print('new_rdd2 = ', new_rdd2.collect())
# flatMap 與 map 的區別：flatMap 是將所有元素全部展開，而map是做用於所有元素，意思是不給方法不給操作，原樣輸出
map_rdd = rdd2.map(lambda x:x)
print('map_rdd = ', map_rdd.collect())

>>> new_rdd2 =  ['a', 'b', 'd', 'c']
>>> map_rdd =  [['a', 'b'], ['d', 'c']]

4. flatMap 和 map 的區別

map：對集合中每個元素進行操作。
flatMap：對集合中每個元素進行操作然後再扁平化。

詳細的解釋： https://blog.csdn.net/WYpersist/article/details/80220211

5. notebook

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

pyspark Window 窗口函數

參考：Introducing Window Functions in Spark SQL 窗口函數 At its core, a window function calculates a return value for ever

2020-07-07 22:37:37

spark讀取elasticsearch nested array

anton spark讀elasticsearch array anton elasticsearch數組在Elasticsearch中，沒有專用的數組類型。默認情況下，任何字段都可以包含零個或多個值(數組中的所有值必須具有相同

Insightzen_xian

2020-07-07 22:21:01

Pyspark ValueError: Cannot run multiple SparkContexts at once 解決之道

pyspark執行可能就遇到問題 ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master

2020-07-06 17:59:34

spark構建迴歸模型

Spark機器學習第六章實現加載數據集數據集爲Bike-Sharing-Dataset path = "hdfs:///user/yy/Bike-Sharing-Dataset/hour_noheader.csv" raw_

2020-07-06 13:47:14

pyspark dataframe 自定義分區器

def myp(x): return x % 100 pp = F.udf(myp) df = spark.range(900) df.show() df = df.repartitionByRange(pp('i

2020-07-05 13:35:28

(待解決) java.io.EOFException: End of File Exception between local host

背景 spark 設置checkpoint 的地址爲阿里雲的hdfs 報錯 spark.sparkContext.setCheckpointDir('dfs://f***iyuncs.com:10290/test') 集羣

2020-07-05 13:35:26

pyspark入門系列 - 02 pyspark.sql入口 SparkSession簡介與實踐

SparkSesson爲使用Dataset和DataFrame API編程Spark的入口點。 SparkSesson對象可以創建DataFrame，將Dataframe註冊爲表，並在表上執行SQL、緩存表、讀parquet文件等

2020-07-04 10:41:11

pyspark入門系列 - 03 pyspark.sql.DataFrame函數彙總與實踐

先放上pyspark.sql.DataFrame的函數彙總 from pyspark.sql import SparkSession spark = SparkSession.Builder().master('local')

2020-07-04 10:00:55

pyspark入門系列 --pyspark.sql.Column函數彙總與實戰

from pyspark.sql import SparkSession spark = SparkSession.Builder().master('local').appName('sparksqlColumn').getO

2020-07-04 10:00:55

pyspark入門系列 - 01 統計文檔中單詞個數

導入SparkConf和SparkContext模塊，任何Spark程序都是SparkContext開始的，SparkContext的初始化需要一個SparkConf對象，SparkConf包含了Spark集羣配置的各種參數。初始

2020-07-04 10:00:55

pyspark入門系列 --pyspark.sql.Row函數彙總

from pyspark.sql import SparkSession spark = SparkSession.Builder().master('local').appName('pysparkSqlRow').getOr

2020-07-04 10:00:55

PySpark RDD 之 reduce

1. pyspark 版本 2.3.0版本 2. 官網 reduce(f)[source] Reduces the elements of this RDD using the specified

2020-06-29 15:59:59

PySpark 之連接變換 union、intersection、subtract、cartesian

1. pyspark 版本 2.3.0版本 2. 解釋 union() 並集 intersection() 交集 subtr

2020-06-29 15:59:59

PySpark RDD 之 filter

1. pyspark 版本 2.3.0版本 2. 官網 filter(f)[source] Return a new RDD containing only the elements that satisfy a pre

2020-06-29 15:59:59

PySpark RDD 之 countByValue

1. pyspark 版本 2.3.0版本 2. 官網 countByValue()[source] Return the count of each unique value in this RD

2020-06-29 15:59:46

24小時熱門文章

Window 安裝 Python 失敗 0x80070643，發生嚴重錯誤

最新文章

最新評論文章