cdh集群的spark2和jupyter集成

原創

2019-08-23 06:24

之前部门有小伙伴使用pandas做数据分析，使用的是jupyter做验证开发，后来要使用spark，所以尝试在jupyter写spark代码，这样做的案例貌似不多，可能是比较偏门的。

1. 前提

1.1、spark2已经安装好，在shell可以正常使用pyspark2

1.2、jupyter已经安装好，可以正常启动使用python3

2. 集成

2.1、在cm页面添加spark和jupyter的关联

export PYSPARK_PYTHON=/usr/bin/python3
export PYSPARK_DRIVER_PYTHON=/usr/local/Python3/bin/jupyter-notebook
export PYSPARK_DRIVER_PYTHON_OPTS="--allow-root  --ip=0.0.0.0 --port=7777"

分别是将pyspark设置为python，以及在shell启动pyspark2时，其实是启动jupyter并且实例化一个sparksession
这样就可以通过web界面访问jupyter来使用pyspark做验证开发了

2.2、这里不需要特意去实例化sparksession，直接拿spark来用就可以了，可以理解为在shell启动pyspark2那样，会自动实例化一个sparksession，至于名称就是默认的spark。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

cdh集群的spark2和jupyter集成

1. 前提

1.1、spark2已经安装好，在shell可以正常使用pyspark2

1.2、jupyter已经安装好，可以正常启动使用python3

2. 集成

2.1、在cm页面添加spark和jupyter的关联

2.2、这里不需要特意去实例化sparksession，直接拿spark来用就可以了，可以理解为在shell启动pyspark2那样，会自动实例化一个sparksession，至于名称就是默认的spark。

sm4加密工具类

在 centos7.2安裝docker 並設置阿里雲源

通過http端口獲取hadoop集羣的active node

CDH5.14 spark2.4.0配置python3 以及讀取hive表

centos6 python3.6 安裝配置jupyer

VMware安裝centos7.2後配置網絡並設置固定ip

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

cdh集群的spark2和jupyter集成

1. 前提

1.1、spark2已经安装好，在shell可以正常使用pyspark2

1.2、jupyter已经安装好，可以正常启动使用python3

2. 集成

2.1、在cm页面添加spark和jupyter的关联

2.2、这里不需要特意去实例化sparksession， 直接拿spark来用就可以了，可以理解为在shell启动pyspark2那样，会自动实例化一个sparksession，至于名称就是默认的spark。

2.2、这里不需要特意去实例化sparksession，直接拿spark来用就可以了，可以理解为在shell启动pyspark2那样，会自动实例化一个sparksession，至于名称就是默认的spark。