window下jupyter(anaconda)中使用findspark配置spark

上一篇講完zeppelin配置spark,zeppelin啓動太慢了,經常網頁上interpreter改着就卡死,需要後面zeppelin.cmd窗後點擊纔有反應,而且啓動賊慢。

因爲本來就安裝了Anaconda2,索性給jupyter也配置上spark;

查閱資料有兩類:

      方法一:給jupyter 安裝上jupyter-scala kernerl 和jupyter-spark kernerl ,這個啓動據說也慢,自己還未安裝嘗試。

      方法二:僅僅pip install findspark 就行,這個方便簡單(如果要學scala還得用第一種),這篇也是將這種方法


一:前提

java 8及以上、scala、jupyter(anaconda python)、spark安裝弄好了,環境變量都配置好了,而且python pip的pyspark都已經弄好了,全都可以參考我之前的博文

講講簡單關係,spark是用scala編寫的,scala底層用的java 8及以上,使用python編寫spark程序,需要用到pyspark第三方包去轉爲jvm中調用核心,而findspark可以提供簡便的初始化spark環境,後續直接使用pyspark即可。

以下均是window 10下的安裝

java 安裝:https://mp.csdn.net/postedit/94853438

scala 安裝:https://blog.csdn.net/u010720408/article/details/94856482

spark 安裝:https://blog.csdn.net/u010720408/article/details/94876941

hadoop 安裝:https://blog.csdn.net/u010720408/article/details/94898160    (僅僅玩spark單機,且用不到hdfs就不用裝)

anaconda和jupyter的我就懶得搞了,找教程弄吧。

pyspark 也很簡單,就是200多M有點大,可下載後離線安裝,會有pydoc、py4j依賴,這兩也得pip安裝,可以看我zeppelin中的配置pyspark部分 https://blog.csdn.net/u010720408/article/details/94969710


二:pip install findspark 

(anaconda prompt中)


三:jupyter中驗證

沒錯,前面做好了,直接就上手驗證了

啓動jupyter,複製裏面的連接再瀏覽其中打開(直接只輸入localhsot:8888 是不行的有token驗證呢):

wonderful,好極了,打完收工。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章