spark有兩種不同的交互式運行環境:一種是給python語言提供的(pyspark),一種是給scala語言提供的。
如何進入pyspark?
假設現在已經進入linux環境了,然後執行以下命令進入pyspark中:
master-url的值可取以下值:
local[*] 邏輯CPU的個數 = 整個物理CPU的個數 * 每個CPU的核數
最後一個連接集羣 HOST:主機名 PORT:端口號
集羣模式:
spark應用程序
1:導入相應類
2:生成配置的上下文信息
3:生成sparkcontext對象,即生成名爲sc的指揮官
4:本地文件地址
5:該句將文本文件加載進來生成一個rdd
6:logData爲rdd的名稱,對rdd進行過濾所有包含a的行