cdh集羣的spark2和jupyter集成

之前部門有小夥伴使用pandas做數據分析,使用的是jupyter做驗證開發,後來要使用spark,所以嘗試在jupyter寫spark代碼,這樣做的案例貌似不多,可能是比較偏門的。

1. 前提

1.1、spark2已經安裝好,在shell可以正常使用pyspark2
1.2、jupyter已經安裝好,可以正常啓動使用python3

2. 集成

2.1、在cm頁面添加spark和jupyter的關聯
export PYSPARK_PYTHON=/usr/bin/python3
export PYSPARK_DRIVER_PYTHON=/usr/local/Python3/bin/jupyter-notebook
export PYSPARK_DRIVER_PYTHON_OPTS="--allow-root  --ip=0.0.0.0 --port=7777"

分別是將pyspark設置爲python,以及在shell啓動pyspark2時,其實是啓動jupyter並且實例化一個sparksession
這樣就可以通過web界面訪問jupyter來使用pyspark做驗證開發了
在這裏插入圖片描述

2.2、這裏不需要特意去實例化sparksession, 直接拿spark來用就可以了,可以理解爲在shell啓動pyspark2那樣,會自動實例化一個sparksession,至於名稱就是默認的spark。

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章