pyspark運行模式

spark有兩種不同的交互式運行環境:一種是給python語言提供的(pyspark),一種是給scala語言提供的。

如何進入pyspark?

假設現在已經進入linux環境了,然後執行以下命令進入pyspark中:

master-url的值可取以下值:

local[*]  邏輯CPU的個數 = 整個物理CPU的個數 * 每個CPU的核數

最後一個連接集羣 HOST:主機名    PORT:端口號

集羣模式:

 

spark應用程序

1:導入相應類

2:生成配置的上下文信息

3:生成sparkcontext對象,即生成名爲sc的指揮官

4:本地文件地址

5:該句將文本文件加載進來生成一個rdd

6:logData爲rdd的名稱,對rdd進行過濾所有包含a的行

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章