Hadoop学习(1)Hadoop2.9.1完全分布式环境搭建和测试

目录

 

参考:

1. 安装前节点环境准备

1.1修改主机名(所有节点,以master节点为例):

1.2关闭防火墙和selinux(所有节点,以master节点为例):

2. 安装前系统环境准备

2.1 安装jdk(所有节点,以master节点为例)

2.2 创建hadoop用户(所有节点,以master节点为例)

2.3 hosts文件设置(所有节点,以master节点为例)

2.4 配置SSH免密码登录(所有节点,以master节点为例)

3. 安装Hadoop和配置Hadoop

3.1 下载安装包hadoop-2.9.1.tar.gz(master节点)

3.2 解压安装包hadoop-2.9.1.tar.gz(master节点)

3.3 master节点配置(master节点)

3.3.1 环境变量配置

3.3.2 配置core-site.xml

3.3.3 配置hdfs-site.xml

3.3.4 配置mapred-site.xml

3.3.5 配置yarn-site.xml

3.3.6 配置slaves

3.4 slave节点配置(在所有slave节点,以slave1为例)

3.5 Hadoop环境变量配置(所有节点,以master节点为例)

4. 初始化Hadoop(master节点)

5. 启动Hadoop

5.1 启动HDFS(HDFS集群的任何节点都可以)

5.2 启动YARN(在YARN主节点ResourceManager上执行)

6. 查看4台服务器的进程

7. 查看HDFS和YARN的Web管理界面

8. Hadoop的简单测试及使用

8.1 HDFS的简单使用测试

8.2 运行第一个Map Reduce的例子程序:wordcount

8.3 运行例子程序:求圆周率


参考:

https://www.cnblogs.com/qingyunzong/p/8496127.html#_label3_2

https://www.cnblogs.com/pcxie/p/7747317.html

https://blog.csdn.net/fanxin_i/article/details/80425461

1. 安装前节点环境准备

4节点均为virt-manager创建的CentOS7(英文版)的虚拟机,如下将每个节点yum源均更新为最新:

[root@localhost ~]# yum update -y

[root@localhost ~]# cat /etc/redhat-release

CentOS Linux release 7.5.1804 (Core)

节点IP

主机名

配置

10.10.129.210

master

OS:CentOS Linux release

7.5.1804 (Core)

CPU:3核

内存:4G

磁盘:30G

 

10.10.129.211

slave1

10.10.129.212

slave2

10.10.129.213

slave3

Hadoop集群中各个角色的名称:

服务

主节点

从节点

HDFS

NameNode

DataNode

YARN

ResourceManager

NodeManager

HDFS角色分配:

节点IP

主机名

HDFS角色

10.10.129.210

master

 datanode;namenode

10.10.129.211

slave1

 datanode;

10.10.129.212

slave2

datanode;secondarynamenode

10.10.129.213

slave3

 datanode;

YARN角色分配:

节点IP

主机名

YARN角色

10.10.129.210

master

 nodemanager;

10.10.129.211

slave1

 nodemanager;

10.10.129.212

slave2

nodemanager

10.10.129.213

slave3

 nodemanager;resourcemanager

1.1修改主机名(所有节点,以master节点为例):

在centos7特地添加了hostnamectl命令查看,修改主机名使用hostnamectl set-hostname 命令修改主机名,可永久生效,新连接主机即可看到主机名发生了改变

[root@localhost~]# hostnamectl set-hostname master

断开重连:

其他节点也分别更名为:slave1,slave2,slave3

1.2关闭防火墙和selinux(所有节点,以master节点为例):

[root@master~]# systemctl disable firewalld

[root@master~]# systemctl stop firewalld

关闭selinux,永久生效是修改/etc/sysconfig/selinux或者/etc/selinux/config配置文件然后需要重启机器:

[root@master~]# vim /etc/sysconfig/selinux

然后重启机器使其永久生效reboot -h

重启后检查selinux状态是否真的关闭:

[root@master ~]# sestatus

2. 安装前系统环境准备

2.1 安装jdk(所有节点,以master点为例

一般linux自带的jdk或者是通过yum安装的jdk都是openjdk,但是最好是使用oracle/sun jdk,前者是开源的,缺失部分功能,后者是官方的。但是如果直接安装oracle的jdk,第三方的依赖包不会安装,所以最有效的额方式是通过yum安装openjdk,并同时安装了第三方依赖包,然后卸载openjdk,通过自己来安装oracle的jdk,就能解决依赖问题。 

[root@master~]# yum install -y java

[root@master~]# rpm -qa|grep java

[root@master ~]# rpm -e --nodeps java-1.8.0-openjdk-1.8.0.181-3.b13.el7_5.x86_64

[root@master ~]# rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.181-3.b13.el7_5.x86_64

安装解压版JDK,先到oracle sun官网下载jdk-8u181-linux-x64.rpm ,再执行下面命令安装:

[root@master ~]# rpm -ivh jdk-8u181-linux-x64.rpm

检查是否安装成功:

[root@master ~]# java -version

java默认安装目录为:/usr/java/jdk1.8.0_181-amd64(后面配置JAVA_HOME用得着)

2.2 创建hadoop用户(所有节点,以master节点为例

[root@master ~]# useradd -m hadoop

为hadoop用户添加密码:

[root@master ~]# passwd hadoop

Changing password for user hadoop.

New password:

BAD PASSWORD: The password is shorter than 8 characters

Retype new password:

passwd: all authentication tokens updated successfully.

为hadoop用户添加root权限:

[root@master ~]# vim /etc/sudoers

在root ALL=(ALL) ALL行下面添加:

hadoop ALL=(ALL) ALL,保存退出

2.3 hosts文件设置(所有节点,以master节点为例

[root@master~]# vim /etc/hosts

检查是否识别域名:

 

2.4 配置SSH免密码登录所有节点,以master点为例

master节点为例:

使用hadoop用户

[root@master ~]# su hadoop

[hadoop@master root]$ cd ~

[hadoop@master ~]$ pwd

/home/hadoop

[hadoop@master~]# ssh-keygen(执行以下命令然后一路回车):

[hadoop@master~]# ssh-keygen

复制key到各节点,注意不要漏掉自身节点:

[hadoop@master ~]# ssh-copy-id 10.10.129.200

[hadoop@master ~]# ssh-copy-id 10.10.129.201

[hadoop@master ~]# ssh-copy-id 10.10.129.202

[hadoop@master ~]# ssh-copy-id 10.10.129.203

检查是否实现了无密码登录(此步骤不要省略,否则后面在执行start-dfs.sh和start-yarn.sh脚本时会出现无法认证的错误,因为正常免密登陆后所有的ssh第一次都需要密码,此后都不需要密码):

[hadoop@master ~]$ ssh master
按提示输入yes
[hadoop@master ~]$ exit
logout
Connection to master closed.

[hadoop@master ~]$ ssh slave1
按提示输入yes
[hadoop@slave1 ~]$ exit
logout
Connection to slave1 closed.

[hadoop@master ~]$ ssh slave2
按提示输入yes
[hadoop@slave2 ~]$ exit
logout
Connection to slave2 closed.

[hadoop@master ~]$ ssh slave3
按提示输入yes
[hadoop@slave3 ~]$ exit
logout
Connection to slave3 closed.

[hadoop@master ~]$

slave1节点为例:

使用hadoop用户

[root@slave1~]# su hadoop

[hadoop@slave1root]$ cd ~

[hadoop@slave1~]$ pwd

/home/hadoop

[hadoop@slave1~]# ssh-keygen(执行以下命令然后一路回车):

[hadoop@slave1~]# ssh-keygen

复制key到各节点,注意不要漏掉自身节点:

[hadoop@slave1 ~]# ssh-copy-id 10.10.129.200

[hadoop@slave1 ~]# ssh-copy-id 10.10.129.201

[hadoop@slave1 ~]# ssh-copy-id 10.10.129.202

[hadoop@slave1 ~]# ssh-copy-id 10.10.129.203

检查是否实现了无密码登录(此步骤不要省略,否则后面在执行start-dfs.sh和start-yarn.sh脚本时会出现无法认证的错误,因为正常免密登陆后所有的ssh第一次都需要密码,此后都不需要密码):

[hadoop@slave1 ~]$ ssh master
按提示输入yes
[hadoop@master ~]$ exit
logout
Connection to master closed.

[hadoop@slave1 ~]$ ssh slave1
按提示输入yes
[hadoop@slave1 ~]$ exit
logout
Connection to slave1 closed.

[hadoop@slave1 ~]$ ssh slave2
按提示输入yes
[hadoop@slave2 ~]$ exit
logout
Connection to slave2 closed.

[hadoop@slave1 ~]$ ssh slave3
按提示输入yes
[hadoop@slave3 ~]$ exit
logout
Connection to slave3 closed.

[hadoop@slave1 ~]$

slave2和slave3节点同slave1节点操作

3. 安装Hadoop和配置Hadoop

最好从这里开始就以hadoop用户操作,我实验时没有这样做,但发现后来反正都要把安装包改为hadoop权限(使用chown命令),因为我是以hadoop用户进行安装的

3.1 下载安装包hadoop-2.9.1.tar.gz(master节点

在官网https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.9.1/hadoop-2.9.1.tar.gz处下载:

这个链接下载起来会更快:http://www-us.apache.org/dist/hadoop/common/hadoop-2.9.1/hadoop-2.9.1.tar.gz

[hadoop@master ~]$ ll
total 352892
-rw-r--r-- 1 hadoop hadoop 361355307 Sep 25 00:55 hadoop-2.9.1.tar.gz

注意这里安装包所属用户:-rw-r--r-- 1 hadoop hadoop

3.2 解压安装包hadoop-2.9.1.tar.gz(master节点

使用hadoop用户,创建安装目录:/home/hadoop/apps,创建数据目录:/home/hadoop/data:

[hadoop@master ~]$ pwd

/home/hadoop

[hadoop@master hadoop]# mkdir apps

[hadoop@master hadoop]# mkdir data

[hadoop@master ~]$ ls

apps  data  hadoop-2.9.1.tar.gz

 

在apps文件夹下解压安装包:

[hadoop@master ~]$ cd apps/

[hadoop@master apps]$ tar -zxvf ../hadoop-2.9.1.tar.gz
[hadoop@master apps]$ ls

hadoop-2.9.1

3.3 master节点配置(master节点

进入配置文件目录:/home/hadoop/apps/hadoop-2.9.1/etc/hadoop

3.3.1 环境变量配置

[hadoop@master hadoop]$ vim hadoop-env.sh
export JAVA_HOME=/usr/java/jdk1.8.0_181-amd64

3.3.2 配置core-site.xml

fs.defaultFS : 这个属性用来指定namenode的hdfs协议的文件系统通信地址,可以指定一个主机+端口,也可以指定为一个namenode服务(这个服务内部可以有多台namenode实现ha的namenode服务。

hadoop.tmp.dir : hadoop集群在工作的时候存储的一些临时文件的目录。

[hadoop@master hadoop]$ vim core-site.xml
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>

    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/data/hadoopdata</value>
    </property>
</configuration>

3.3.3 配置hdfs-site.xml

dfs.namenode.name.dir:namenode数据的存放地点。也就是namenode元数据存放的地方,记录了hdfs系统中文件的元数据。

dfs.datanode.data.dir: datanode数据的存放地点。也就是block块存放的目录了。

dfs.replication:hdfs的副本数设置。也就是上传一个文件,其分割为block块后,每个block的冗余副本个数,默认配置是3。

dfs.secondary.http.address:secondarynamenode 运行节点的信息,和 namenode 不同节点

HDFS角色分配:

节点IP

主机名

HDFS角色

10.10.129.210

master

 datanode;namenode

10.10.129.211

slave1

 datanode;

10.10.129.212

slave2

datanode;secondarynamenode

10.10.129.213

slave3

 datanode;

[hadoop@master hadoop]$ vim hdfs-site.xml
<configuration>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/hadoop/data/hadoopdata/name</value>
        <description>为了保证元数据的安全一般配置多个不同目录</description>
    </property>

    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/home/hadoop/data/hadoopdata/data</value>
        <description>datanode 的数据存储目录</description>
    </property>

    <property>  
        <name>dfs.replication</name>
        <value>2</value>
        <description>HDFS 的数据块的副本存储个数, 默认是3</description>
    </property>

    <property>
        <name>dfs.secondary.http.address</name>
        <value>slave2:50090</value>
        <description>secondarynamenode 运行节点的信息,和 namenode 不同节点</description>
    </property>
</configuration>

3.3.4 配置mapred-site.xml

mapreduce.framework.name:指定mr框架为yarn方式,Hadoop二代MP也基于资源管理系统Yarn来运行 。

[hadoop@master hadoop]$ cp mapred-site.xml.template mapred-site.xml

[hadoop@master hadoop]$ vim mapred-site.xml
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>   
    </property>
</configuration>

3.3.5 配置yarn-site.xml

yarn.resourcemanager.hostname:yarn总管理器的IPC通讯地址

yarn.nodemanager.aux-services:YARN 集群为 MapReduce 程序提供的服务(常指定为 shuffle )

YARN角色分配:

节点IP

主机名

YARN角色

10.10.129.210

master

 nodemanager;

10.10.129.211

slave1

 nodemanager;

10.10.129.212

slave2

nodemanager

10.10.129.213

slave3

 nodemanager;resourcemanager

[hadoop@master hadoop]$ vim yarn-site.xml
<configuration>

<!-- Site specific YARN configuration properties -->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>slave3</value>
    </property>

    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
        <description>YARN 集群为 MapReduce 程序提供的 shuffle 服务</description>
    </property>
</configuration>

3.3.6 配置slaves

[hadoop@master hadoop]$ vim slaves

把原本的localhost删掉,增加如下内容:

master
slave1
slave2
slave3

3.4 slave节点配置(在所有slave节点,以slave1为例

重点强调: 每台服务器中的hadoop安装包的目录必须一致, 安装包的配置信息还必须保持一致

在slave1节点上,同样使用hadoop用户:

[root@slave1 ~]# su hadoop

[hadoop@slave1 root]$ cd ~

[hadoop@slave1 ~]$ pwd

/home/hadoop

[hadoop@slave1 ~]$ mkdir apps

在master节点上:

[hadoop@master hadoop]$ scp -r ~/apps/hadoop-2.9.1/ hadoop@slave1:~/apps/hadoop-2.9.1/

slave2和slave3节点同slave1节点操作

3.5 Hadoop环境变量配置(所有节点,以master节点为例

千万注意:

1、如果你使用root用户进行安装。 vi /etc/profile 即可 系统变量

2、如果你使用普通用户进行安装。 vi ~/.bashrc 用户变量(我是使用hadoop用户安装的)

[hadoop@master ~]$ pwd

/home/hadoop

[hadoop@master ~]$ vim .bashrc
# User specific aliases and functions

export HADOOP_HOME=/home/hadoop/apps/hadoop-2.9.1

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:

使环境变量生效:

[hadoop@master ~]$ source ~/.bashrc
[hadoop@master ~]$ echo $HADOOP_HOME

/home/hadoop/apps/hadoop-2.9.1

验证环境变量是否生效,查看hadoop版本:

[hadoop@master ~]$ hadoop version

注意:slave节点要以hadoop用户去执行以上操作

[hadoop@slave1 ~]$ vim .bashrc
# User specific aliases and functions

export HADOOP_HOME=/home/hadoop/apps/hadoop-2.9.1

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:

使环境变量生效:

[hadoop@slave1 ~]$ source ~/.bashrc
[hadoop@slave1 ~]$ echo $HADOOP_HOME

/home/hadoop/apps/hadoop-2.9.1

验证环境变量是否生效,查看hadoop版本:

[hadoop@slave1 ~]$ hadoop version

slave2和slave3节点同slave1节点操作

4. 初始化Hadoop(master节点

注意:HDFS初始化只能在HDFS集群的主节点namenode上进行,本实验中即为master节点

[hadoop@master ~]$ hadoop namenode -format

5. 启动Hadoop

5.1 启动HDFS(HDFS集群的任何节点都可以

注意:不管在集群中的哪个节点都可以。

[hadoop@master ~]$ start-dfs.sh

 

5.2 启动YARN(在YARN主节点ResourceManager上执行

注意:只能在YARN的主节点resourcemanager中进行启动,也就是本集群的slave3。

[hadoop@slave3 ~]$ start-yarn.sh

(补充:启动方式2:直接在master上执行start-all.sh而不是像前面这样分开执行HDFS和YARN(未验证过))

6. 查看4台服务器的进程

master节点

slave1节点

slave2节点

slave3节点

7. 查看HDFS和YARN的Web管理界面

7.1 查看HDFS的Web管理界面

浏览器输入:http://10.10.129.200:50070

点击Datanodes可查看集群4个节点

从上图中的Http Address中可以看到访问其他节点的URL链接(图中是用的域名,我试了不行,要用IP,至于为什么域名不行以后再解决)

http://10.10.129.201:50075

http://10.10.129.202:50075

http://10.10.129.203:50075

7.2 查看YARN的Web管理界面

浏览器输入http://10.10.129.203:8088

点击Nodes可以查看集群4个节点

8. Hadoop的简单测试及使用

8.1 HDFS的简单使用测试

  • 创建文件夹

在HDFS上创建一个文件夹/test/input

[hadoop@master ~]$ hadoop fs -mkdir -p /test/input
  • 查看创建的文件夹
[hadoop@master ~]$ hadoop fs -ls /

Found 1 items

drwxr-xr-x - hadoop supergroup 0 2018-09-25 06:21 /test
[hadoop@master ~]$ hadoop fs -ls /test

Found 1 items

drwxr-xr-x - hadoop supergroup 0 2018-09-25 06:21 /test/input
  • 向HDFS上传文件

创建一个文本文件words.txt

[hadoop@master ~]$ vim words.txt
hello zhangsan
hello lisi
hello wangwu

将words.txt文件上传至HDFS:

[hadoop@master ~]$ hadoop fs -put ~/words.txt /test/input

查看是否上传成功

[hadoop@master ~]$ hadoop fs -ls /test/input

Found 1 items

-rw-r--r-- 2 hadoop supergroup 39 2018-09-25 06:24 /test/input/words.txt
  • 从HDFS下载文件

将刚刚上传的文件下载到~/data文件夹中

[hadoop@master ~]$ hadoop fs -get /test/input/words.txt ~/data

查看是否下载成功

[hadoop@master ~]$ ls data/

hadoopdata  words.txt

8.2 运行第一个Map Reduce的例子程序:wordcount

用自带的demo--wordcount来测试hadoop集群能不能正常跑任务:

执行wordcount程序,并将结果放入/test/output/文件夹:

[hadoop@master ~]$ hadoop jar ~/apps/hadoop-2.9.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.1.jar wordcount /test/input /test/output

(注意事项:/output文件夹必须是没有创建过的文件夹?(没验证过))

在YARN Web管理界面查看:

查看执行结果:

[hadoop@master ~]$ hadoop fs -ls /test/output

Found 2 items

-rw-r--r-- 2 hadoop supergroup 0 2018-09-25 06:32 /test/output/_SUCCESS

-rw-r--r-- 2 hadoop supergroup 35 2018-09-25 06:32 /test/output/part-r-00000

在output/part-r-00000可以看到程序执行结果:

[hadoop@master ~]$ hadoop fs -cat /test/output/part-r-00000

hello 3

lisi 1

wangwu 1

zhangsan 1

8.3 运行例子程序:求圆周率

用自带的demo--pi来测试hadoop集群能不能正常跑任务:

执行pi程序:

[hadoop@master ~]$ hadoop jar ~/apps/hadoop-2.9.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.1.jar pi 10 10

用来求圆周率,pi是类名,第一个10表示Map次数,第二个10表示随机生成点的次数(与计算原理有关) (参考:https://blog.csdn.net/fanxin_i/article/details/80425461

在YARN Web管理界面查看:

最后出现结果:

至此,hadoop集群搭建成功!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章