Hadoop环境搭建及单机、伪分布式安装问题总结（踩坑实录）

最近上了一门课，叫大数据基础，这是我第一次没有在别人的帮助下自己解决了如此多的问题，感谢百度，感谢~~CSDN~~，感谢各位大佬写的博客。我都觉得踩坑大队队长非我莫属了，怎么会有我这么笨的人，给我整懵了好了废话不多说记录一下我踩的坑。

实验名称

Hadoop单机配置及伪分布式安装

实验环境

系统环境：Ubuntu 16.04.6
JAVA版本：java openjdk 1.8.0_222
Hadoop版本：Hadoop 3.2.1

实验过程

这个教程写的很好点击这里打开参考教程除了我自己笨让我踩了很多坑。

实验所遇问题

温馨提示：建议使用hadoop用户进行实验，否则可能会和我一样踩很多坑。

问题1：在解压Hadoop时出现如下问题，原因是有apt进程在运行

tar (child): /home/hadoop/Downloads/hadoop-x.x.x.tar.gz: Cannot open: No such file or derectory
tar (child):Error is not recoverable: exiting now
tar: Child returned status 2
tar: Error is not recoverable: exiting now

错误截图：

解决办法：

运行如下命令查看正在进行的进程

ps -A | grep apt

使用如下命令关闭进程

sudo kill -9 number

例如：此处存在进程号为1142、1160的进程在运行，使用如下命令将其关闭。

问题2：在执行grep例子时报错JAVA_HOME找不到，但是之前java环境都是配好的，使用“java -version”命令也可以查看到java的版本。

 ERROR: JAVA_HOME is not set and could not be found.

错误截图：

解决办法：

sudo vim hadoop/etc/hadoop/hadoop-env.sh

使用上述语句修改修改“hdoop-env.sh”文件中的

# export JAVA_HOME=

这一行为

# export JAVA_HOME=/usr/lib/jvm/default-java

并且添加

 export JAVA_HOME=/usr/lib/jvm/default-java

（什么？找不到jdk的路径→echo &JAVA_HOME）

实际修改如下：

问题3：启动dfs时报错

Starting namenodes on [localhost]
ERROR: Attempting to operate on hdfs namenode as root
ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.
Starting datanodes
ERROR: Attempting to operate on hdfs datanode as root
ERROR: but there is no HDFS_DATANODE_USER defined. Aborting operation.
Starting secondary namenodes [slave1]
ERROR: Attempting to operate on hdfs secondarynamenode as root
ERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting operation.

错误截图：

解决办法：

如果不是用Hadoop启动的话，需将root改为对应用户

以下是Hadoop3.2.1版本解决办法，如果你是Hadoop2.x.x版本请参考这里点我点我
在/hadoop/sbin路径下，将start-dfs.sh，stop-dfs.sh两个文件顶部添加以下参数：

#!/usr/bin/env bash
HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs  
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

start-yarn.sh，stop-yarn.sh顶部也需添加以下参数：

#!/usr/bin/env bash
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

修改后重启即可解决。

问题4：以为上面那个问题解决了，重新启动dfs就没问题了，结果又报错了

...
Starting namenodes on [localhost]
localhost: ERROR: Unable to write in /usr/local/hadoop/logs. Aborting.
Starting datanodes
localhost: ERROR: Unable to write in /usr/local/hadoop/logs. Aborting.
...

错误截图：

解决办法：
此处Warning是由于问题3中新旧版本hadoop参数不对应造成的，后续已解决，可无视。
出现Unable to write问题的原因是因为写入权限不够，因此需将权限给对应的文件夹
执行如下代码：

sudo chmod -R 777 /usr/local/hadoop/logs

实际运行如下：

问题5：我以为上面那个问题解决了，就真的没有问题了，结果给了权限以后又出现了Permission denied的问题。

...
 Starting namenodes on [localhost]
 localhost: Permission denied (publickey,password)
 Starting datanodes
 localhost: Permission denied (publickey,password)
 ...

错误截图：

解决办法：
重新格式化节点，报错，重新配置ssh还是报错，在Permission denied一下午了之后我思考了一下到底是什么原因，此处总结为用户yubei没有对hadoop的操作权限，所以我是开错了账号，为了避免出现更多问题，我选择了最笨的办法→重新安装了虚拟机重做。（其实上面问题3中有一步需要修改root为实际调用用户yubei，尝试了一下没有成功，所以选择重来，如果是用hadoop用户不会有此问题）

在重新安装虚拟机使用Hadoop用户进行实验后，实验变得顺畅了很多，遇到相同的问题都通过上面的办法解决了，接下来遇到一个新的问题。

问题6：http://localhost:50070 端口错误打不开
解决办法：教程中的版本为Hadoop 2.x.x，我的版本是Hadoop 3.x.x，端口不同所以对不上。将端口修改为9870即可解决。即打开 http://localhost:9870

实验结果

单机配置运行实例grep结果如下：
伪分布式配置运行实例WordCount结果如下（部分截图）：

实验心得

需要补一下Linux基础操作语句，遇到问题先百度不要着急，静下心来你一定可以解决的。纠错QQ2533285193

Hadoop环境搭建及单机、伪分布式安装问题总结（踩坑实录）

实验名称

实验环境

实验过程

实验所遇问题

实验结果

实验心得

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU启动那些事（12.A）- uSDHC eMMC启动时间(RT1170)

GPT-4o 引领人机交互新风向，向量数据库赛道沸腾了

企业大模型如何成为自己数据的“百科全书”？

本地SSL证书过期输入命令在IIS自动生成

基于Ubuntu-22.04安装K8s-v1.28.2实验（二）使用kube-vip实现集群VIP访问

.NET周刊【5月第2期 2024-05-12】

二叉鏈表實現哈夫曼編碼系統

單向鏈表實現學生管理系統

【學習|總結】如何使用java和php發送http請求

小白編程 | PAT甲級1001 A+B Format

Hadoop環境搭建及單機、僞分佈式安裝問題總結（踩坑實錄）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結