上一篇講完zeppelin配置spark,zeppelin啓動太慢了,經常網頁上interpreter改着就卡死,需要後面zeppelin.cmd窗後點擊纔有反應,而且啓動賊慢。
因爲本來就安裝了Anaconda2,索性給jupyter也配置上spark;
查閱資料有兩類:
方法一:給jupyter 安裝上jupyter-scala kernerl 和jupyter-spark kernerl ,這個啓動據說也慢,自己還未安裝嘗試。
方法二:僅僅pip install findspark 就行,這個方便簡單(如果要學scala還得用第一種),這篇也是將這種方法
一:前提
java 8及以上、scala、jupyter(anaconda python)、spark安裝弄好了,環境變量都配置好了,而且python pip的pyspark都已經弄好了,全都可以參考我之前的博文
講講簡單關係,spark是用scala編寫的,scala底層用的java 8及以上,使用python編寫spark程序,需要用到pyspark第三方包去轉爲jvm中調用核心,而findspark可以提供簡便的初始化spark環境,後續直接使用pyspark即可。
以下均是window 10下的安裝
java 安裝:https://mp.csdn.net/postedit/94853438
scala 安裝:https://blog.csdn.net/u010720408/article/details/94856482
spark 安裝:https://blog.csdn.net/u010720408/article/details/94876941
hadoop 安裝:https://blog.csdn.net/u010720408/article/details/94898160 (僅僅玩spark單機,且用不到hdfs就不用裝)
anaconda和jupyter的我就懶得搞了,找教程弄吧。
pyspark 也很簡單,就是200多M有點大,可下載後離線安裝,會有pydoc、py4j依賴,這兩也得pip安裝,可以看我zeppelin中的配置pyspark部分 https://blog.csdn.net/u010720408/article/details/94969710
二:pip install findspark
(anaconda prompt中)
三:jupyter中驗證
沒錯,前面做好了,直接就上手驗證了
啓動jupyter,複製裏面的連接再瀏覽其中打開(直接只輸入localhsot:8888 是不行的有token驗證呢):
wonderful,好極了,打完收工。