pyspark的基礎瞭解和入門

原創

胡锦红

2020-02-21 04:11

什麼是Pyspark？

PySpark 是 Spark 爲 Python 開發者提供的 API。

子模塊

pyspark.sql 模塊

pyspark.streaming 模塊

pyspark.ml 包

pyspark.mllib 包

PySpark 提供的類

pyspark.SparkConf

pyspark.SparkConf 類提供了對一個 Spark 應用程序配置的操作方法。用於將各種Spark參數設置爲鍵值對。

pyspark.SparkContext

pyspark.SparkContext 類提供了應用與 Spark 交互的主入口點，表示應用與 Spark 集羣的連接，基於這個連接，應用可以在該集羣上創建 RDD 和廣播變量 (pyspark.Broadcast)

pyspark.SparkFiles

SparkFiles 只包含類方法，開發者不應創建 SparkFiles 類的實例 [2] 。

pyspark.RDD

這個類是爲 PySpark 操作 RDD􏵌􏱯􏰯􏱎􏲑􏰭􏰮􏰽 提供了基礎方法 [1] 。

first() 是 pyspark.RDD 類提供的方法，返回 RDD 的第一個元素。

aggregate() 方法使用給定的組合函數和中性“零值，先聚合每個分區的元素，然後再聚合所有分區的結果。

cache() 使用默認存儲級別（MEMORY_ONLY）對此 RDD 進行持久化 [3] 。

collect() 返回一個列表，包含此 RDD 中所有元素 [3] 。

pyspark.Accumulator

一種“只允許添加”的共享變量，Spark 任務只能向其添加值 [1] 。

pyspark.Broadcast

Spark 提供了兩種共享變量 [3] ：廣播變量和累加器，pyspark.Broadcast 類提供了對廣播變量的操作方法。

pyspark.Accumulator

pyspark.Accumulator 提供了對累加器變量的操作方法 [3] 。

累加器是僅僅被相關操作累加的變量，因此可以在並行中被有效地支持。

胡錦紅

發佈了12 篇原創文章 · 獲贊 18 · 訪問量 1萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

pyspark的基礎瞭解和入門

子模塊

PySpark 提供的類

pyspark.SparkConf

pyspark.SparkContext

pyspark.SparkFiles

pyspark.RDD

pyspark.Accumulator

pyspark.Broadcast

pyspark.Accumulator

python gdal 安裝使用（Windows， python 3.6.8）

關於高等數學求解函數極限的方法

快速入門Django開發教程(旅遊推薦系統實現教程)

mac shell終端編輯命令行快捷鍵——行首，行尾

第十屆中國大學生服務外包創新創業大賽總結

基於微信小程序的移動智能學習平臺的設計開發和實現

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結