CentOS虛擬機上配置Hadoop+Spark實現大數據分析平臺的流程

原創

2019-03-26 18:34

安裝並配置虛擬機

總體思路

需要安裝四個虛擬機：master、data1、data2、data3
首先安裝並配置data1虛擬機，在該虛擬機上操作四臺虛擬機共有的過程，其後將data1虛擬機進行複製拷貝，得到data2、data3、master，在分別在各自虛擬機分別進行設置，該思路可以減小一部分工作量。

安裝data1節點

在VMware workstation 15 pro中安裝CentOS7最新版本的虛擬機，安裝過程略

Hadoop Single Node Cluster的安裝

下列操作皆是在data1虛擬機上進行操作

安裝JDK

Hadoop 是以Java開發的，必須先安裝Java環境
啓動終端，輸入$ Java -version得到當前系統中的Java版本，若查不到Java版本，執行$ sudo yum install default-jdk進行安裝，安裝完畢後即可查詢Java版本

查詢Java安裝路徑

$ update-alternatives --display Java 將會在終端中顯示出Java的安裝路徑，該路徑將在後續過程中使用到

設置SSH無密碼登錄

Hadoop 是由很多節點組成的，當我們啓動Hadoop系統時，NameNode(也就是後續的master服務器)必須要與DataNode(後續的data1、data2、data2三個節點)進行連接，會要求很多次輸入密碼，爲方便後續程序自動進行，最好設置master到data1、data2、data3的SSH無密碼登錄
SSH無密碼登錄大致設置思路如下：
前提：安裝ssh：$ sudo yum install ssh與rsync：$ sudo yum install rsync

產生SSH Key:$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 該命令將會在當前機器的~/.ssh目錄下創建出id_dsa.pub文件，此文件是通過ssh連接到該機器的公鑰
在各個子節點如data1、data2、data3上重複上述操作，創建各個節點的公鑰
將各節點產生的id_dsa.pub文件加入到master的**~/.ssh/authorized_keys**文件中，如無該文件請自主創建
設置完畢後 master可以無密碼通過ssh連接到data1、data2、data3

下載安裝Hadoop

去Hadoop的官網進行下載，在選擇Hadoop的版本時需要配合後續的Spark版本，否則將會出錯，具體版本的選擇可以參考網上的資料。因爲後續要安裝Spark2.0 我們在此選用hadoop-2.6.4版本
從Apache官網上下載完hadoop-2.6.4.tar.gz後解壓縮即可：$ sudo tar -zxvf hadoop-2.6.4.tar.gz
接着將解壓出來的文件夾複製到 /usr/local/hadoop 中，/usr/local是軟件的默認安裝路徑：sudo mv hadoop-2.6.4 /usr/local/hadoop

設置Hadoop環境變量

運行Hadoop必須設置很多環境變量，如果每次登錄時必須重新設置就很麻煩，可以直接修改 ~/.bashrc 文件即可每次登錄時會自動運行一次環境變量的設置：$ sudo vi ~/.bashrc
添加下列配置：

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64  
( 注： java 地址，該地址需要根據自己電腦的具體情況進行設置！！！)
(以下可複製)
export HADOOP_HOME=/usr/local/hadoop 
export PATH=$PATH:$HADOOP_HOME/bin 
export PATH=$PATH:$HADOOP_HOME/sbin 
export HADOOP_MAPRED_HOME=$HADOOP_HOME 
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME 
export YARN_HOME=$HADOOP_HOME 
export HADOOP_COMMON_HOME=$HADOOP_HOME 
export HADOOP_HDFS_HOME=$HADOOP_HOME 
export YARN_HOME=$HADOOP_HOME 
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native 
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib" 
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH

最後令該配置生效，執行：$ source ~/.bashrc 重啓虛擬機亦可

修改Hadoop的配置設置文件

需要對Hadoop進行配置設置，需要修改的文件有 Hadoop-env.sh、core-site.xml、YARN-site.xml、mapred-site.xml、hdfs-site.xml

更新到 2019. 03.26 12:40 稍後更新

Hadoop Multi Node Cluster的安裝

Spark的安裝配置

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

CentOS虛擬機上配置Hadoop+Spark實現大數據分析平臺的流程

安裝並配置虛擬機

總體思路

安裝data1節點

Hadoop Single Node Cluster的安裝

安裝JDK

查詢Java安裝路徑

設置SSH無密碼登錄

下載安裝Hadoop

設置Hadoop環境變量

修改Hadoop的配置設置文件

Hadoop Multi Node Cluster的安裝

Spark的安裝配置

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

[MATLAB] 打包自己寫的GUI軟件

[Qt問題] 在Opencascade繼承的QOpenGLWidget類中只有局部窗口響應鼠標事件

MacOS Xcode 10.2.1 配置OpenCV 4.1.0

[OpenCascade] 鼠標點擊在模型上確定對應點

[OpenCascade問題] error LNK2019: 無法解析的外部符號

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結