Spark是Scala寫的,是運行在JVM環境上,需要java7以上;
如果要安裝python API,則要安裝python 2.6或者python3.4以上;
搭建Spark不需要Hadoop 集羣,如果已經有hadoop集羣,則下載相應版本的spark;
1.安裝JDK
參考:
https://blog.csdn.net/vvv_110/article/details/72897142
https://blog.csdn.net/wengyupeng/article/details/52410564
1-1 使用命令getconf LONG_BIT 查看Linux系統的位數,然後下載相應版本的JDK
1-2 Oracle JDK1.8下載地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
1-3 安裝jdk-8u181-macosx-x64.dmg
1-4 查看JDK安裝路徑
/usr/libexec/java_home -V
1-5 進入用戶目錄(即,主目錄,表示爲~),創建一個.bash_profile的隱藏配置文件,如果已經存在配置文件,直接打開
cd ~
touch .bash_profile(用戶配置文件;/etc/profile是系統配置文件)
open -e .bash_profile
1-6 輸入
JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_40.jdk/Contents/Home
PATH=$JAVA_HOME/bin:$PATH:.
CLASSPATH=$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:.
export JAVA_HOME
export PATH
export CLASSPATH
1-7 使生效並驗證
source .bash_profile
echo $JAVA_HOME
java -version
2.scala安裝和配置
參考:
和spark的版本對應:https://blog.csdn.net/Zenor_one/article/details/88664479?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task
http://www.runoob.com/scala/scala-install.html
https://blog.csdn.net/u012373815/article/details/53231292
2-1 下載Scala地址:http://www.scala-lang.org/download/
2-2 根據Spark對應版本選擇下載的Scala二進制版本(scala-2.11.8.tgz)
2-3 進行解壓
tar -zxvf scala-2.12.8.tgz
2-4 重命名並移動到制定文件夾下,如碰到permission deny就是權限不夠,在前面加上sudo
mv /download/scala2.12.8 /usr/local/share # 下載目錄需要按你實際的下載路徑
2-5 配置環境變量,在/etc/profile 配置全局變量或者在.bash_profile 中配置用戶變量
sudo vim /etc/profile
在文件中添加如下內容,
export SCALA_HOME=/usr/scala
export PATH=$PATH:$SCALA_HOME/bin
保存並退出,強制保存用q!
添加完成之後使用命令使環境變量生效,在命令行輸入Scala,能進入scala命令行說明安裝成功
source /etc/local/share/profile
scala
3.Hadoop的安裝
3-1 配置ssh免密登錄
參考我的這篇文章:https://blog.csdn.net/CYJ2014go/article/details/82660137
3-2 待續
4.Spark的下載和安裝
下載地址:http://spark.apache.org/downloads.html
注意版本匹配問題,選擇spark-2.4.5-bin-hadoop2.7 下載
spark-2.4.5-bin-hadoop2.7.tgz
然後進行解壓:
tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz
進入解壓的spark-2.4.5-bin-hadoop2.7軟件包中,可以看到裏面的各種文件,
spark有兩個shell:
python shell:在
./bin/pyspark
scala shell:在
./bin/spark-shell
執行相應命令可以進入。
5.IntelliJIDEA的安裝和插件配置:
參考:https://blog.csdn.net/CYJ2014go/article/details/82590801
6.測試
啓動scala-shell,輸入:
val lines = sc.textFile("../../testfile/hellospark")
會返回一個RDD lines,可以執行以下操作:
lines.count()
lines.first()