cdh集羣的spark2和jupyter集成

原創

2019-08-23 06:24

之前部門有小夥伴使用pandas做數據分析，使用的是jupyter做驗證開發，後來要使用spark，所以嘗試在jupyter寫spark代碼，這樣做的案例貌似不多，可能是比較偏門的。

1. 前提

1.1、spark2已經安裝好，在shell可以正常使用pyspark2

1.2、jupyter已經安裝好，可以正常啓動使用python3

2. 集成

2.1、在cm頁面添加spark和jupyter的關聯

export PYSPARK_PYTHON=/usr/bin/python3
export PYSPARK_DRIVER_PYTHON=/usr/local/Python3/bin/jupyter-notebook
export PYSPARK_DRIVER_PYTHON_OPTS="--allow-root  --ip=0.0.0.0 --port=7777"

分別是將pyspark設置爲python，以及在shell啓動pyspark2時，其實是啓動jupyter並且實例化一個sparksession
這樣就可以通過web界面訪問jupyter來使用pyspark做驗證開發了

2.2、這裏不需要特意去實例化sparksession，直接拿spark來用就可以了，可以理解爲在shell啓動pyspark2那樣，會自動實例化一個sparksession，至於名稱就是默認的spark。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

cdh集羣的spark2和jupyter集成

1. 前提

1.1、spark2已經安裝好，在shell可以正常使用pyspark2

1.2、jupyter已經安裝好，可以正常啓動使用python3

2. 集成

2.1、在cm頁面添加spark和jupyter的關聯

2.2、這裏不需要特意去實例化sparksession，直接拿spark來用就可以了，可以理解爲在shell啓動pyspark2那樣，會自動實例化一個sparksession，至於名稱就是默認的spark。

容器中nginx無法使用同一個網絡下的容器域名

Python: SunMoonTimeCalculator

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

nodejs學習07——API

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

在 centos7.2安裝docker 並設置阿里雲源

通過http端口獲取hadoop集羣的active node

CDH5.14 spark2.4.0配置python3 以及讀取hive表

centos6 python3.6 安裝配置jupyer

VMware安裝centos7.2後配置網絡並設置固定ip

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

cdh集羣的spark2和jupyter集成

1. 前提

1.1、spark2已經安裝好，在shell可以正常使用pyspark2

1.2、jupyter已經安裝好，可以正常啓動使用python3

2. 集成

2.1、在cm頁面添加spark和jupyter的關聯

2.2、這裏不需要特意去實例化sparksession， 直接拿spark來用就可以了，可以理解爲在shell啓動pyspark2那樣，會自動實例化一個sparksession，至於名稱就是默認的spark。

2.2、這裏不需要特意去實例化sparksession，直接拿spark來用就可以了，可以理解爲在shell啓動pyspark2那樣，會自動實例化一個sparksession，至於名稱就是默認的spark。