安裝SparkR有兩種方法,一種是通過devtools進行安裝,一種是自行進行解壓安裝
在安裝之前SparkR之前需要安裝:
rjava;
spark;
R;
Rstudio;
一、 通過devtools進行安裝
1. 安裝devtools
在安裝devtools包前先執行如下命令:
sudo apt-get install gfortran
sudo apt-get install build-essential
sudo apt-get install libxt-dev
sudo apt-get install libcurl4-openssl-dev
sudo apt-get install libxml++2.6-dev
sudo apt-get install libssl-dev
然後纔在R中進行安裝devtools包和sparkR包
install.packages("devtools", dependencies = T)
library(devtools)
install_github("amplab-extras/SparkR-pkg", subdir="pkg")
二、自行解壓安裝。
可以參考博客
http://www.cnblogs.com/payton/p/4227770.html
下面內容轉自上述博客:
1.3.1. SparkR的代碼下載
從網頁下載代碼SparkR-pkg-master.zip
https://github.com/amplab-extras/SparkR-pkg
1.3.2. SparkR的代碼編譯
1) 解壓SparkR-pkg-master.zip,然後cd SparkR-pkg-master/
2) 編譯的時候需要指明Hadoop版本和Spark版本
SPARK_HADOOP_VERSION=2.4.1 SPARK_VERSION=1.2.0 ./install-dev.sh
至此,單機版的SparkR已經安裝完成。
1.3.3. 分佈式SparkR的部署配置
1) 編譯成功後,會生成一個lib文件夾,進入lib文件夾,打包SparkR爲SparkR.tar.gz,這個是分佈式SparkR部署的關鍵。
2) 由打包好的SparkR.tar.gz在各集羣節點上安裝SparkR
R CMD INSTALL SparkR.tar.gz
至此分佈式SparkR搭建完成。