linux虛擬機搭建pyspark環境

搭建linux虛擬機

下載virtualbox,下載地址:https://www.virtualbox.org/wiki/Downloads,然後安裝。
virtualbox安裝成功

下載centos操作系統,http://isoredirect.centos.org/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1804.iso,然後在virtualbox中新建虛擬機。
創建名字和分配內存,內存在虛擬機關機或者暫停時不佔用,因此可以根據實際需要稍微調整大一些
這裏寫圖片描述
然後選擇硬盤大小,記得選擇動態分配,這樣可以根據真正使用的大小來實際佔用磁盤空間。
這裏寫圖片描述
創建完成後,在虛擬機列表中可以看到剛剛新建的虛擬機,雙擊打開。會提示選擇鏡像文件,然後將上面下載的centos-7選擇進去,然後start開始安裝虛擬機。
這裏寫圖片描述
虛擬機安裝完成後,選擇用戶語言,各位可根據自身需要和愛好進行設置語言。
緊接着設置用戶名密碼,linux系統默認有一個root用戶,你也可以新建一個用戶設置爲管理員
這裏寫圖片描述
安裝完成後,會提示重啓。

配置ssh訪問虛擬機

重啓後開始配置通過ssh命令(也可以使用XShell工具)來訪問虛擬機,好處是不用在主機與虛擬機中來回切換以及複製粘貼考慮。
首先查看虛擬機ip

ip addr

這裏寫圖片描述
如果沒有看到第二個ip,不要擔心,因爲centos7默認是關閉網卡的。因此我們可以把默認開啓

sudo vi /etc/sysconfig/network-scripts/ifcfg-enp0s3

其中enp0s3是根據ip addr命令看到的一致
打開後顯示的是
這裏寫圖片描述
需要把此處的ONBOOT=no改爲ONBOOT=yes,修改後重啓網絡服務

sudo service network restart 

重啓後再輸入即可看到如上的ip地址了
然後命令

ssh loginname@ip

輸入密碼登錄。

配置pyspark

在當前用戶目錄下創建一個spark目錄

mkdir spark
cd spark

進入spark目錄後,下載spark文件

wget http://mirrors.hust.edu.cn/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz

如果出現wget命令找不到是因爲centos默認最小安裝,沒有安裝wget工具,因此執行

sudo yum install wget

這裏寫圖片描述
然後重新執行wget命令下載spark文件,下載過程如圖
這裏寫圖片描述
下載完成後解壓

tar -xf spark-2.3.1-bin-hadoop2.7.tgz

然後配置spark環境變量

sudo vi /etc/profile

在最末尾添加一句

PATH=/home/huoshirui/spark/spark-2.3.1-bin-hadoop2.7/bin:$PATH

添加的具體路徑根據下載路徑決定
然後執行

source /etc/profile
echo $PATH

然後執行命令pyspark
如果當前沒有安裝java環境配置JAVA_HOME則會進行提示,因此需要安裝java環境配置JAVA_HOME,可以使用快捷安裝

sudo yum install java

然後java安裝完成後,再次運行pyspark
這裏寫圖片描述
然後運行簡單代碼:

app = spark.builder \
     .master("local") \
     .appName("Word Count") \
     .config("spark.some.config.option", "some-value") \
     .getOrCreate()
l = [('Alice', 1)]
app.createDataFrame(l).collect()
app.createDataFrame(l, ['name', 'age']).collect()

最終出現結果如下,pyspark安裝成功
這裏寫圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章