Spark由淺到深(*)-- 基礎部分代碼性小結

原創

2018-08-23 14:17

0.預先準備

安裝 Spark的庫

// 188多Mb的文件
pip install pyspark

1. 初始化SparkContext

from pyspark import SparkConf, SparkContext

# 先創建一個 SparkConf 對象來配置你的應用
conf = SparkConf().setMaster("local").setAppName("My App")

# 然後基於這個SparkConf 創建一個 SparkContext 對象
sc = SparkContext(conf = conf)

示例創建 SparkContext 的最基本的方法，你只需傳遞兩個參數:

集羣 URL：告訴 Spark 如何連接到集羣上。在這幾個例子中我們使用的是 local，這個特殊值可以讓 Spark 運行在單機單線程上而無需連接到集羣。
應用名：在例子中我們使用的是 My App。當連接到一個集羣時，這個值可以幫助你在集羣管理器的用戶界面中找到你的應用。

初始化 SparkContext 之後，可以使用所有方法（比如利用文本文件）來創建 RDD 並操控它們。

from pyspark import SparkConf, SparkContext

# 先創建一個 SparkConf 對象來配置你的應用
conf = SparkConf().setMaster("local").setAppName("My App")

# 然後基於這個SparkConf 創建一個 SparkContext 對象
sc = SparkContext(conf = conf) 

# 開始使用RDD的方法
myFile = sc.textFile("README.md")

# 轉化操作
myFileLines = myFile.filter(lambda line: "Python" in line)

# 持久化
myFileLines.persist
<bound method PipelinedRDD.persist of PythonRDD[3] at RDD at PythonRDD.scala:48>

# 行動操作
myFileLines.count()
3

# 關閉Spark
sc.stop()

最後，關閉 Spark 可以調用 SparkContext 的 stop() 方法，或者直接退出應用（比如通過System.exit(0) 或者 sys.exit()）。

2. 創建RDD

// 時間問題, 留坑再填.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark由淺到深(*)-- 基礎部分代碼性小結

0.預先準備

1. 初始化SparkContext

2. 創建RDD

【人工智障】00：Keras 安裝

Airpal 部署文檔

CentOS MySQL-5.7.22 以tar.gz方式安裝(version.2.0)

tar.xz 格式文件解壓, CentOS 和 MacOS對比

Hbase 部署中的幾個問題解決.

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結