CentOS 6.5下hadoop3.0集羣搭建

本文采用虛擬機的方式來對hadoop集羣進行搭建。

1.準備(搭建集羣所用到的軟件及系統前期配置)：

虛擬機 : VMware
linux：CentOS 6.5 .vmx
sun公司的 jdk : jdk1.8.0_131
ssh : 安裝ssh，並設置免密
hadoop : hadoop-3.0.0-alpha4

把CentOS進行克隆，克隆出兩個，這樣我們就有三臺Linux了。
分別命名爲：
master
node1
node2

在root用戶下運行,對主機名進行修改 :

hostname    // 查看當前系統主機名
vi /etc/sysconfig/network    // 進入文件

HSOTNAME的屬性賦值爲想要修改的主機名 master

reboot    // 重啓 即可完成更改

其他兩臺主機分別命名爲 node1，node2。

對三臺主機進行地址映射 :

ifconfig    // 獲取主機ip地址，爲了完成映射
vi /etc/hosts    // 打開

添加地址映射 :

這樣我們就不用每次都敲ip了，直接主機名稱就可以了。(當然另外兩臺都需要進行相同的配置)

2. ssh免密的配置

rpm –qa | grep ssh    // 驗證ssh是否安裝
yum install ssh -y    // 若無信息列出即未安裝，則進行安裝

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa    // 在~/.ssh/下生成公鑰/私鑰對   -P '' 密碼爲空

(randomart image看着也是挺有趣的。。。)

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys    // 把公鑰添加到authorzied_keys文件裏
chmod 0600 ~/.ssh/authorized_keys    // 修改authorized_keys的權限
ssh localhost    // 驗證ssh是否可以訪問

驗證ssh訪問是否正常:

把另外兩臺機器也配好了之後，就可以做三臺機器之間的聯通了 :

scp id_rsa.pub node1:~/.ssh/master_rsa.pub   // 把master公鑰發給node1

再轉到node1上執行 :

cat ~/.ssh/master_rsa.pub >> ~/.ssh/authorized_keys    //把收到的公鑰添加到文件中去

node2 進行相同的步驟。(master的know_host文件中已經存在如節點node1的信息，以後連接都是免密的)。
就是三臺虛擬機都相互把各自的公鑰都發一遍，這樣在每一臺機器的~/.ssh/know_host文件裏面都有其他節點的ssh信息。並把收到的公鑰添加到authorized_keys文件下，這樣下一次就可以免密登錄了。

第一次訪問時會出現詢問

確定就好,之後都是秒連的。

遇到的問題：
1. ssh: connect to host node1 port 22: Connection timed out
檢查/etc/hosts文件中的映射地址->主機名是否有錯
2. Host key verification failed.
當詢問 “…..(yes/no)?”時直接敲了個回車。應敲yes

jdk的安裝

下載
可以直接訪問官網下載符合自己機器的jdk。
注意：需選中 Accept License Agreement
解壓
tar zxvf jdk-8u131-linux-x64.tar.gz // 解壓jdk壓縮包
配置環境變量

vi /etc/profile    // 配置環境變量

在空白處添加解壓後jdk所在的路徑 :

export JAVA_HOME=/opt/softwares/jdk1.8.0_131    
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=.:$JAVA_HOME/bin:$PATH

source /etc/profile    // 使環境變量生效

驗證jdk是否安裝完成 :

 java -version    // 會出現jdk版本信息

可利用scp命令發送jdk到其餘虛擬機中然後更改/etc/profile

或是重複相同操作

hadoop的安裝和配置

1.下載
訪問hadoop官網下載。
2.解壓

tar zxvf hadoop-3.0.0-alpha4.tar.gz

3.爲了方便可以配置一下環境變量

vi /etc/profile

export HADOOP_HOME=/usr/local/hadoop
export PATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$JAVA_HOME/bin:$PATH

source /etc/profile    // 使環境變量生效

驗證安裝 :

hadoop version

4.配置文件
在hadoop文件加下:

cd etc/hadoop/    //  此目錄下含有hadoop的配置件

需要配置的文件有 :
hadoop-env.sh
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
workers
(單節點及僞分佈式可查看官網)

vi hadoop-env.sh

# The java implementation to use.
#export JAVA_HOME=${JAVA_HOME}
export JAVA_HOME=/opt/softwares/jdk1.8.0_131

因爲hadoop是在JVM上運行的所以要在其配置文件中指定jdk的path

vi core-site.xml

<configuration>
  <property>
    <name>fs.defaultFS</name>
     <value>hdfs://master:9000</value>
  </property>

  <property>
      <name>hadoop.tmp.dir</name>
      <value>/usr/local/hadoop/tmp</value>
  </property>
</configuration>

第一個fs.defaultFS是指定hdfs的URI
第二個hadoop.tmp.dir是hadoop文件系統依賴的基礎配置，很多路徑都依賴它。如果hdfs-site.xml中不配置namenode和datanode的存放位置，默認就放在這個路徑中

vi hdfs-site.xml

<configuration>
 <property>
   <name>dfs.replication</name>
   <value>2</value>
 </property>
 <property>
   <name>dfs.namenode.name.dir</name>
   <value>/usr/local/hadoop/hdfs/name</value>
 </property>
 <property>
   <name>dfs.datanode.data.dir</name>
   <value>/usr/local/hadoop/hdfs/data</value>
 </property>
 <property>
   <name>dfs.namenode.secondary.http-address</name>
   <value>node1:9001</value>
 </property>
  <property>
    <name>dfs.http.address</name>
    <value>0.0.0.0:50070</value>
  </property>
</configuration>

dfs.replication 副本個數，默認是3
dfs.namenode.secondary.http-address 爲了保證整個集羣的可靠性secondarnamenode配置在其他機器比較好
dfs.http.address 進入hadoop web UI的端口

vi mapred-site.xml

<configuration>
  <property>
    <name>mapred.job.tracker.http.address</name>
    <value>0.0.0.0:50030</value>
  </property>
  <property>
-->

<!-- Put site-specific property overrides in this file. -->

<configuration>
  <property>
    <name>mapred.job.tracker.http.address</name>
    <value>0.0.0.0:50030</value>
  </property>
  <property>
    <name>mapred.task.tracker.http.address</name>
    <value>0.0.0.0:50060</value>
  </property>

  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>

  <property>
   <name>mapreduce.application.classpath</name>
   <value>
     /usr/local/hadoop/etc/hadoop,
     /usr/local/hadoop/share/hadoop/common/*,
     /local/hadoop/share/hadoop/common/lib/*,
     /usr/local/hadoop/share/hadoop/hdfs/*,
     /usr/local/hadoop/share/hadoop/hdfs/lib/*,
     /usr/local/hadoop/share/hadoop/mapreduce/*,
    /usr/local/hadoop/share/hadoop/mapreduce/lib/*,
     /usr/local/hadoop/share/hadoop/yarn/*,
     /usr/local/hadoop/share/hadoop/yarn/lib/*
 </value>
</property>
</configuration>

mapreduce框架的參數
最後一個是hadoop jar包的路徑

vi yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>         <name>yarn.resourcemanager.webapp.address</name>
        <value>master:8099</value>
</property>
</configuration>

NodeManager上運行的附屬服務。需配置成mapreduce_shuffle，纔可運行MapReduce程序
yarn 的webUI端口是8099

vi workers    // datanode節點設置

node1
node2

5.發送到其餘虛擬機中或是重複相同操作

啓動hadoop

hdfs namenode -format    // 首次啓動格式化namenode
start-all.sh    // 啓動hadoop集羣
jps    // 查看JVM運行的程序

遇到的問題 :

在hadoop/sbin/
vi start-dfs.sh
vi stop-dfs.sh
添加
HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

當報錯YARN_RESOURCEMANAGER_USER時
vi start-yarn.sh
vi stop-yarn.sh
添加
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

50070端口配置文件中設置了，卻還是不能訪問

vi /etc/selinux/config

修改

#This file controls the state of SELinux on the system.
#SELINUX= can take one of these three values:
#enforcing - SELinux security policy is enforced.
#permissive - SELinux prints warnings instead of enforcing.
#disabled - No SELinux policy is loaded.
SELINUX=enforcing

SELINUX的屬性改爲disabled

namenode啓動了datanode沒有啓動(多次格式化namenode造成的)

在master的hadoop路徑下 :

vi hdfs/name/current/VERSION

拷貝clusterID
datanode的hadoop路徑下 :

vi hdfs/data/current/VERSION

替換掉datanode的clusterID
開啓不需要format了

參考：
http://hadoop.apache.org/docs/r3.0.0-alpha4/hadoop-project-dist/hadoop-common/ClusterSetup.html
http://hadoop.apache.org/docs/r3.0.0-alpha4/hadoop-project-dist/hadoop-common/SingleCluster.html

CentOS 6.5下hadoop3.0集羣搭建

1.準備(搭建集羣所用到的軟件及系統前期配置)：

2. ssh免密的配置

jdk的安裝

hadoop的安裝和配置

啓動hadoop

遇到的問題 :

《日本蠟燭圖》讀書筆記 & 技術分析回測

一分鐘部署 Llama3 中文大模型，沒別的，就是快

Python多線程編程深度探索：從入門到實戰

《期貨-市場技術分析》讀書筆記

mongodb處理json數據很好

頂級 Javaer 都在用的 20 個類庫，真香！

[轉帖]cpupower

google瀏覽器插件開發

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

SpringCloud ------ config配置中心

Java設計模式 ------ 實現自己的動態代理

Java設計模式 ------ 單例模式

hadoop分佈式集羣hive-mysql的安裝配置

Docker ------ 安裝

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結