什麼是Pyspark?
PySpark 是 Spark 爲 Python 開發者提供的 API。
子模塊
pyspark.sql 模塊
pyspark.streaming 模塊
pyspark.ml 包
pyspark.mllib 包
PySpark 提供的類
pyspark.SparkConf
pyspark.SparkConf 類提供了對一個 Spark 應用程序配置的操作方法。用於將各種Spark參數設置爲鍵值對。
pyspark.SparkContext
pyspark.SparkContext 類提供了應用與 Spark 交互的主入口點,表示應用與 Spark 集羣的連接,基於這個連接,應用可以在該集羣上創建 RDD 和 廣播變量 (pyspark.Broadcast)
pyspark.SparkFiles
SparkFiles 只包含類方法,開發者不應創建 SparkFiles 類的實例 [2] 。
pyspark.RDD
這個類是爲 PySpark 操作 RDD 提供了基礎方法 [1] 。
first() 是 pyspark.RDD 類提供的方法,返回 RDD 的第一個元素。
aggregate() 方法使用給定的組合函數和中性“零值,先聚合每個分區的元素,然後再聚合所有分區的結果。
cache() 使用默認存儲級別(MEMORY_ONLY)對此 RDD 進行持久化 [3] 。
collect() 返回一個列表,包含此 RDD 中所有元素 [3] 。
pyspark.Accumulator
一種“只允許添加”的共享變量,Spark 任務只能向其添加值 [1] 。
pyspark.Broadcast
Spark 提供了兩種共享變量 [3] :廣播變量 和 累加器,pyspark.Broadcast 類提供了對廣播變量的操作方法。
pyspark.Accumulator
pyspark.Accumulator 提供了對累加器變量的操作方法 [3] 。
累加器是僅僅被相關操作累加的變量,因此可以在並行中被有效地支持。