pyspark的基礎瞭解和入門

什麼是Pyspark?

PySpark 是 Spark 爲 Python 開發者提供的 API。

子模塊

pyspark.sql 模塊

pyspark.streaming 模塊

pyspark.ml 包

pyspark.mllib 包

PySpark 提供的類

pyspark.SparkConf

pyspark.SparkConf 類提供了對一個 Spark 應用程序配置的操作方法。用於將各種Spark參數設置爲鍵值對。

pyspark.SparkContext

pyspark.SparkContext 類提供了應用與 Spark 交互的主入口點,表示應用與 Spark 集羣的連接,基於這個連接,應用可以在該集羣上創建 RDD 和 廣播變量 (pyspark.Broadcast)

pyspark.SparkFiles

SparkFiles 只包含類方法,開發者不應創建 SparkFiles 類的實例 [2]  。

pyspark.RDD

這個類是爲 PySpark 操作 RDD􏵌􏱯􏰯􏱎􏲑􏰭􏰮􏰽 提供了基礎方法 [1]  。

first() 是 pyspark.RDD 類提供的方法,返回 RDD 的第一個元素。

aggregate() 方法使用給定的組合函數和中性“零值,先聚合每個分區的元素,然後再聚合所有分區的結果。

cache() 使用默認存儲級別(MEMORY_ONLY)對此 RDD 進行持久化 [3]  

collect() 返回一個列表,包含此 RDD 中所有元素 [3]  

pyspark.Accumulator

一種“只允許添加”的共享變量,Spark 任務只能向其添加值 [1]  。

pyspark.Broadcast

Spark 提供了兩種共享變量 [3]  :廣播變量 和 累加器,pyspark.Broadcast 類提供了對廣播變量的操作方法。

pyspark.Accumulator

pyspark.Accumulator 提供了對累加器變量的操作方法 [3]  

累加器是僅僅被相關操作累加的變量,因此可以在並行中被有效地支持。

發佈了12 篇原創文章 · 獲贊 18 · 訪問量 1萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章