搭建linux虛擬機
下載virtualbox,下載地址:https://www.virtualbox.org/wiki/Downloads,然後安裝。
下載centos操作系統,http://isoredirect.centos.org/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1804.iso,然後在virtualbox中新建虛擬機。
創建名字和分配內存,內存在虛擬機關機或者暫停時不佔用,因此可以根據實際需要稍微調整大一些
然後選擇硬盤大小,記得選擇動態分配,這樣可以根據真正使用的大小來實際佔用磁盤空間。
創建完成後,在虛擬機列表中可以看到剛剛新建的虛擬機,雙擊打開。會提示選擇鏡像文件,然後將上面下載的centos-7選擇進去,然後start開始安裝虛擬機。
虛擬機安裝完成後,選擇用戶語言,各位可根據自身需要和愛好進行設置語言。
緊接着設置用戶名密碼,linux系統默認有一個root用戶,你也可以新建一個用戶設置爲管理員
安裝完成後,會提示重啓。
配置ssh訪問虛擬機
重啓後開始配置通過ssh命令(也可以使用XShell工具)來訪問虛擬機,好處是不用在主機與虛擬機中來回切換以及複製粘貼考慮。
首先查看虛擬機ip
ip addr
如果沒有看到第二個ip,不要擔心,因爲centos7默認是關閉網卡的。因此我們可以把默認開啓
sudo vi /etc/sysconfig/network-scripts/ifcfg-enp0s3
其中enp0s3是根據ip addr
命令看到的一致
打開後顯示的是
需要把此處的ONBOOT=no
改爲ONBOOT=yes
,修改後重啓網絡服務
sudo service network restart
重啓後再輸入即可看到如上的ip地址了
然後命令
ssh loginname@ip
輸入密碼登錄。
配置pyspark
在當前用戶目錄下創建一個spark目錄
mkdir spark
cd spark
進入spark目錄後,下載spark文件
wget http://mirrors.hust.edu.cn/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz
如果出現wget命令找不到是因爲centos默認最小安裝,沒有安裝wget工具,因此執行
sudo yum install wget
然後重新執行wget命令下載spark文件,下載過程如圖
下載完成後解壓
tar -xf spark-2.3.1-bin-hadoop2.7.tgz
然後配置spark環境變量
sudo vi /etc/profile
在最末尾添加一句
PATH=/home/huoshirui/spark/spark-2.3.1-bin-hadoop2.7/bin:$PATH
添加的具體路徑根據下載路徑決定
然後執行
source /etc/profile
echo $PATH
然後執行命令pyspark
如果當前沒有安裝java環境配置JAVA_HOME
則會進行提示,因此需要安裝java環境配置JAVA_HOME
,可以使用快捷安裝
sudo yum install java
然後java安裝完成後,再次運行pyspark
然後運行簡單代碼:
app = spark.builder \
.master("local") \
.appName("Word Count") \
.config("spark.some.config.option", "some-value") \
.getOrCreate()
l = [('Alice', 1)]
app.createDataFrame(l).collect()
app.createDataFrame(l, ['name', 'age']).collect()
最終出現結果如下,pyspark安裝成功