系列之二:Spark裏使用Anaconda實現

介紹

上一篇文章,詳細介紹瞭如何在Linux系統安裝Spark。
詳細瞭解請點擊:系列之一:Linux系統安裝單機版Spark

但還遺留一個問題,就是PySpark使用的是Linux默認的Python2.7.5版本(見下圖)。
在這裏插入圖片描述
對於習慣使用Python3.0版本的我來說感覺超級不爽,另外筆者本人更喜歡Anaconda,特別對於主要使用工具是Python的算法人員來說,使用Anaconda是很爽的。Anaconda它是一個統一的、跨平臺的虛擬環境,優點包括統一的環境、豐富的第三方包以及多Py版本支持等,但重要的還是一個字:省心,省心,省心(不是說好的一個字嗎,重要的事說三遍)。
那麼如何在pyspark中也可以使用Anaconda呢?這裏筆者研讀了pyspark的腳本,給出已經實施成功的解決方案。

步驟

第一步:下載Anaconda。

途徑一:可以從官網下載,但速度很慢。
Anaconda官網下載地址
途徑二:從清華大學鏡像網站下載,速度特別快,重點推薦。
清華大學開源軟件鏡像站

這裏我下載的最新版本,見下圖:
在這裏插入圖片描述
將Anaconda文件存放到目錄下,這裏我選擇和spark同一目錄下,
在這裏插入圖片描述
第二步:安裝。
步驟見下:

  1. 輸入安裝命令:bash Anaconda3-5.3.1-Linux-x86_64.sh
  2. 回車
  3. 輸入:yes
  4. 這一步可選擇默認安裝,點擊回車,當然也可以修改,見下圖。這裏我選擇另定義安裝目錄,輸入:/tmp/software/anaconda3
  5. 輸入:yes

在這裏插入圖片描述

注意,這裏可能會提示安裝不成功,報錯:tar (child): lbzip2: Cannot exec: No such file or directory ……
這是因爲缺少解壓工具bzip2,解決如下:
直接輸入:yum install bzip2

然後再次執行上述安裝步驟,提示“Thank you for installing Anaconda3!”視爲安裝成功。

第三步:文件配置。
打開配置文件:

vim  /etc/profile

選擇“e”,並輸入“i”進入編輯模式,然後在文件的最後加上如下配置:

export ANACONDA_HOME=/tmp/software/anaconda3
export PATH=$ANACONDA_HOME/bin:$PATH
export PYSPARK_PYTHON=$ANACONDA_HOME/bin/python

如下如:
在這裏插入圖片描述
保存退出並運行:source /etc/profile 使文件修改生效。

輸入pyspark,運行,可以看出,python版本已經是3.7.0版本,可以很愜意的在spark裏使用Aanconda了。。
在這裏插入圖片描述

End…
下一篇文章繼續介紹如何實現在windows上通過瀏覽器遠程連接Linux服務器的jupyter notebook
系列之三:在windows通過瀏覽器遠程連接Linux服務器的jupyter notebook

參考:
spark2.0下實現IPYTHON3.5開發,兼配置jupyter,notebook降低python開發難度
tar (child): lbzip2: Cannot exec: No such file or

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章