系列之二：Spark裏使用Anaconda實現

介紹

上一篇文章，詳細介紹瞭如何在Linux系統安裝Spark。
詳細瞭解請點擊：系列之一：Linux系統安裝單機版Spark

但還遺留一個問題，就是PySpark使用的是Linux默認的Python2.7.5版本（見下圖）。

對於習慣使用Python3.0版本的我來說感覺超級不爽，另外筆者本人更喜歡Anaconda，特別對於主要使用工具是Python的算法人員來說，使用Anaconda是很爽的。Anaconda它是一個統一的、跨平臺的虛擬環境，優點包括統一的環境、豐富的第三方包以及多Py版本支持等，但重要的還是一個字：省心，省心，省心（不是說好的一個字嗎，重要的事說三遍）。
那麼如何在pyspark中也可以使用Anaconda呢？這裏筆者研讀了pyspark的腳本，給出已經實施成功的解決方案。

步驟

第一步：下載Anaconda。

途徑一：可以從官網下載，但速度很慢。
Anaconda官網下載地址
途徑二：從清華大學鏡像網站下載，速度特別快，重點推薦。
清華大學開源軟件鏡像站

這裏我下載的最新版本，見下圖：

將Anaconda文件存放到目錄下，這裏我選擇和spark同一目錄下，

第二步：安裝。
步驟見下：

輸入安裝命令：bash Anaconda3-5.3.1-Linux-x86_64.sh
回車
輸入：yes
這一步可選擇默認安裝，點擊回車，當然也可以修改，見下圖。這裏我選擇另定義安裝目錄，輸入：/tmp/software/anaconda3
輸入：yes

注意，這裏可能會提示安裝不成功，報錯：tar (child): lbzip2: Cannot exec: No such file or directory ……
這是因爲缺少解壓工具bzip2，解決如下：
直接輸入：yum install bzip2

然後再次執行上述安裝步驟，提示“Thank you for installing Anaconda3!”視爲安裝成功。

第三步：文件配置。
打開配置文件：

vim  /etc/profile

選擇“e”，並輸入“i”進入編輯模式，然後在文件的最後加上如下配置：

export ANACONDA_HOME=/tmp/software/anaconda3
export PATH=$ANACONDA_HOME/bin:$PATH
export PYSPARK_PYTHON=$ANACONDA_HOME/bin/python

如下如：

保存退出並運行：source /etc/profile 使文件修改生效。

輸入pyspark，運行，可以看出，python版本已經是3.7.0版本，可以很愜意的在spark裏使用Aanconda了。。

End…
下一篇文章繼續介紹如何實現在windows上通過瀏覽器遠程連接Linux服務器的jupyter notebook
系列之三：在windows通過瀏覽器遠程連接Linux服務器的jupyter notebook

參考：
spark2.0下實現IPYTHON3.5開發，兼配置jupyter，notebook降低python開發難度
 tar (child): lbzip2: Cannot exec: No such file or

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

系列之二：Spark裏使用Anaconda實現

介紹

步驟

DAPPER 事務 TRANSACTION

python裏的%操作符

系列之二：Spark裏使用Anaconda實現

python裏map，reduce，filter函數

模型性能度量，分類算法評價

Python裏pip介紹、安裝與使用

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結