CentOS虛擬機上配置Hadoop+Spark實現大數據分析平臺的流程

安裝並配置虛擬機

總體思路

需要安裝四個虛擬機:master、data1、data2、data3
首先安裝並配置data1虛擬機,在該虛擬機上操作四臺虛擬機共有的過程,其後將data1虛擬機進行複製拷貝,得到data2、data3、master,在分別在各自虛擬機分別進行設置,該思路可以減小一部分工作量。

安裝data1節點

在VMware workstation 15 pro中安裝CentOS7最新版本的虛擬機,安裝過程略

Hadoop Single Node Cluster的安裝

下列操作皆是在data1虛擬機上進行操作

安裝JDK

Hadoop 是以Java開發的,必須先安裝Java環境
啓動終端,輸入$ Java -version得到當前系統中的Java版本,若查不到Java版本,執行$ sudo yum install default-jdk進行安裝,安裝完畢後即可查詢Java版本

查詢Java安裝路徑

$ update-alternatives --display Java 將會在終端中顯示出Java的安裝路徑,該路徑將在後續過程中使用到

設置SSH無密碼登錄

Hadoop 是由很多節點組成的,當我們啓動Hadoop系統時,NameNode(也就是後續的master服務器)必須要與DataNode(後續的data1、data2、data2三個節點)進行連接,會要求很多次輸入密碼,爲方便後續程序自動進行,最好設置master到data1、data2、data3的SSH無密碼登錄
SSH無密碼登錄大致設置思路如下:
前提:安裝ssh:$ sudo yum install ssh與rsync:$ sudo yum install rsync

  • 產生SSH Key:$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 該命令將會在當前機器的~/.ssh目錄下創建出id_dsa.pub文件,此文件是通過ssh連接到該機器的公鑰
  • 在各個子節點如data1、data2、data3上重複上述操作,創建各個節點的公鑰
  • 將各節點產生的id_dsa.pub文件加入到master的**~/.ssh/authorized_keys**文件中,如無該文件請自主創建
  • 設置完畢後 master可以無密碼通過ssh連接到data1、data2、data3

下載安裝Hadoop

去Hadoop的官網進行下載,在選擇Hadoop的版本時需要配合後續的Spark版本,否則將會出錯,具體版本的選擇可以參考網上的資料。因爲後續要安裝Spark2.0 我們在此選用hadoop-2.6.4版本
從Apache官網上下載完hadoop-2.6.4.tar.gz後解壓縮即可:$ sudo tar -zxvf hadoop-2.6.4.tar.gz
接着將解壓出來的文件夾複製到 /usr/local/hadoop 中,/usr/local是軟件的默認安裝路徑:sudo mv hadoop-2.6.4 /usr/local/hadoop

設置Hadoop環境變量

運行Hadoop必須設置很多環境變量,如果每次登錄時必須重新設置就很麻煩,可以直接修改 ~/.bashrc 文件即可每次登錄時會自動運行一次環境變量的設置:$ sudo vi ~/.bashrc
添加下列配置:

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64  
( 注: java 地址,該地址需要根據自己電腦的具體情況進行設置!!!)
(以下可複製)
export HADOOP_HOME=/usr/local/hadoop 
export PATH=$PATH:$HADOOP_HOME/bin 
export PATH=$PATH:$HADOOP_HOME/sbin 
export HADOOP_MAPRED_HOME=$HADOOP_HOME 
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME 
export YARN_HOME=$HADOOP_HOME 
export HADOOP_COMMON_HOME=$HADOOP_HOME 
export HADOOP_HDFS_HOME=$HADOOP_HOME 
export YARN_HOME=$HADOOP_HOME 
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native 
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib" 
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH

最後令該配置生效,執行:$ source ~/.bashrc 重啓虛擬機亦可

修改Hadoop的配置設置文件

需要對Hadoop進行配置設置,需要修改的文件有 Hadoop-env.sh、core-site.xml、YARN-site.xml、mapred-site.xml、hdfs-site.xml

更新到 2019. 03.26 12:40 稍後更新

Hadoop Multi Node Cluster的安裝

Spark的安裝配置

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章