window下jupyter(anaconda)中使用findspark配置spark

上一篇講完zeppelin配置spark，zeppelin啓動太慢了，經常網頁上interpreter改着就卡死，需要後面zeppelin.cmd窗後點擊纔有反應，而且啓動賊慢。

因爲本來就安裝了Anaconda2，索性給jupyter也配置上spark；

查閱資料有兩類：

方法一：給jupyter 安裝上jupyter-scala kernerl 和jupyter-spark kernerl ，這個啓動據說也慢，自己還未安裝嘗試。

方法二：僅僅pip install findspark 就行，這個方便簡單（如果要學scala還得用第一種），這篇也是將這種方法

java 8及以上、scala、jupyter（anaconda python）、spark安裝弄好了，環境變量都配置好了，而且python pip的pyspark都已經弄好了，全都可以參考我之前的博文

講講簡單關係，spark是用scala編寫的，scala底層用的java 8及以上，使用python編寫spark程序，需要用到pyspark第三方包去轉爲jvm中調用核心，而findspark可以提供簡便的初始化spark環境，後續直接使用pyspark即可。

以下均是window 10下的安裝

hadoop 安裝：https://blog.csdn.net/u010720408/article/details/94898160 (僅僅玩spark單機，且用不到hdfs就不用裝)

anaconda和jupyter的我就懶得搞了，找教程弄吧。

pyspark 也很簡單，就是200多M有點大，可下載後離線安裝，會有pydoc、py4j依賴，這兩也得pip安裝，可以看我zeppelin中的配置pyspark部分 https://blog.csdn.net/u010720408/article/details/94969710

(anaconda prompt中)

沒錯，前面做好了，直接就上手驗證了

啓動jupyter，複製裏面的連接再瀏覽其中打開(直接只輸入localhsot:8888 是不行的有token驗證呢)：

wonderful，好極了，打完收工。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.