之前部門有小夥伴使用pandas做數據分析,使用的是jupyter做驗證開發,後來要使用spark,所以嘗試在jupyter寫spark代碼,這樣做的案例貌似不多,可能是比較偏門的。
1. 前提
1.1、spark2已經安裝好,在shell可以正常使用pyspark2
1.2、jupyter已經安裝好,可以正常啓動使用python3
2. 集成
2.1、在cm頁面添加spark和jupyter的關聯
export PYSPARK_PYTHON=/usr/bin/python3
export PYSPARK_DRIVER_PYTHON=/usr/local/Python3/bin/jupyter-notebook
export PYSPARK_DRIVER_PYTHON_OPTS="--allow-root --ip=0.0.0.0 --port=7777"
分別是將pyspark設置爲python,以及在shell啓動pyspark2時,其實是啓動jupyter並且實例化一個sparksession
這樣就可以通過web界面訪問jupyter來使用pyspark做驗證開發了