ubuntu Hadoop及Spark環境搭建

關於平臺選擇的問題
目前分佈式計算框架主要是在linux系統下開發,因此選擇ubuntu或者centos都沒有問題。
spark發展到現在,很多方面都已經十分完善,其速度與性能等也比hadoop好不止一個數量級,因此,主要使用spark進行分佈式計算框架的學習。但是hadoop中的HDFS文件系統應用廣泛,spark默認也採用hadoop的HDFS文件系統,因此安裝時,首先安裝配置hadoop,然後再安裝spark。
主要流程
安裝系統
最好是首先配置一個username爲hadoop的用戶名,方便之後的操作。
安裝hadoop
jdk配置:因爲在這裏需要配置jdk,儘量選擇jdk8,不要選擇9或者以上的版本,否則之後spark中的scala(scala2.12.4以及之前版本都是這樣)無法使用
在安裝hadoop的過程中,主要是需要配置一些免密登錄等的東西,方便之後的操作,同時需要設置hadoop文件夾可以被hadoop用戶直接讀寫,否則始終用sudo操作很麻煩。
安裝hadoop的參考鏈接
https://www.cnblogs.com/87hbteo/p/7606012.html
http://blog.csdn.net/monkeys2012/article/details/51972622
scala安裝
其實不需要單獨安裝這個,因爲之後安裝spark的時候也會安裝scala,但是爲了平時練習,也可以安裝一下,安裝教程參考鏈接和spark的放在一起
spark安裝
安裝與測試的參考鏈接:http://dblab.xmu.edu.cn/blog/spark-quick-start-guide/
注意:如果遇到spark-shell Failed to initialize compiler: object java.lang.Object in compiler mirror not found.等問題,可能就是java版本太高的問題,換成8或者一下就沒有問題了

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章