Spark由淺到深(*)-- 基礎部分代碼性小結

0.預先準備

安裝 Spark的庫

// 188多Mb的文件
pip install pyspark

1. 初始化SparkContext

from pyspark import SparkConf, SparkContext

# 先創建一個 SparkConf 對象來配置你的應用
conf = SparkConf().setMaster("local").setAppName("My App")

# 然後基於這個SparkConf 創建一個 SparkContext 對象
sc = SparkContext(conf = conf) 

示例創建 SparkContext 的最基本的方法,你只需傳遞兩個參數:

  • 集羣 URL:告訴 Spark 如何連接到集羣上。在這幾個例子中我們使用的是 local,這個特殊值可以讓 Spark 運行在單機單線程上而無需連接到集羣。
  • 應用名:在例子中我們使用的是 My App。當連接到一個集羣時,這個值可以幫助你在集羣管理器的用戶界面中找到你的應用。

初始化 SparkContext 之後,可以使用所有方法(比如利用文本文件)來創建 RDD 並操控它們。

from pyspark import SparkConf, SparkContext

# 先創建一個 SparkConf 對象來配置你的應用
conf = SparkConf().setMaster("local").setAppName("My App")

# 然後基於這個SparkConf 創建一個 SparkContext 對象
sc = SparkContext(conf = conf) 

# 開始使用RDD的方法
myFile = sc.textFile("README.md")

# 轉化操作
myFileLines = myFile.filter(lambda line: "Python" in line)

# 持久化
myFileLines.persist
<bound method PipelinedRDD.persist of PythonRDD[3] at RDD at PythonRDD.scala:48>

# 行動操作
myFileLines.count()
3

# 關閉Spark
sc.stop()

最後,關閉 Spark 可以調用 SparkContext 的 stop() 方法,或者直接退出應用(比如通過System.exit(0) 或者 sys.exit())。

2. 創建RDD

// 時間問題, 留坑再填.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章