linux Hadoop环境变量安装及应用

原創

2018-09-02 22:39

1．上传hadoop（切记在hadoop用户下）

1．解压缩 tar -xzfhadoop-2.7.5.tar.gz

1．配置环境变量

（1）首先进入hadoop的根目录

（2）配置HADOOP_HOME

查看 bashrc文件

（3）配置HADOOP_CONF_DIR

（4）配置PATH vi ~/.bashrc （删除上面的PATH，重新写入一个新的）

exportPATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

vi 进入环境变量配置文件，添加上面圈选部分，:wq保存退出（PATH路径好像要在最底下，不然PATH无法使用$JAVA_HOME、$HADOOP_HOME路径）

（5）source更新文件

（6）输入hadoop测试环境变量生效了没，证明生效

一．搭建hadoop

1．配置静态IP

（1）切换root用户（否则下面的操作没有权限）

（2）查看你的网段

（3）vi/etc/sysconfig/network-scripts/ifcfg-ens33（这里的33不是我的网段！！！）

修改BOOTPROTO=static onroot = yes

添加

IPADDR=192.168.33.110 （33设置成你的网段，最后随便设置，请牢记这个ip）

NETMASK=255.255.255.0

GATEWAY=192.168.33.2（这里的33也请改成你的网段）

DNS1=202.106.0.20

（4）重启network systemctl restart network

（5）输入 ssh 192.168.33.110，看看配置的生效了没

输入用户和密码成功登陆上了，证明整成功了

2．修改主机名和映射

（1）切换root用户，修改需要权限

（2）修改主机名 vi/etc/hostname

保存退出

（3）修改主机映射 vi /etc/hosts

保存退出

（4）重启

（5）修改window下的映射

在桌面打开这个文件（记事本），输入以下内容，记住一定输入你配置的静态ip，保存关闭

将桌面的文件拖到原来的文件夹下

选择替换

以管理员继续

完成

3．修改配置文件

（1）重新连上linux

（1）进入配置目录

（3）配置 core-site.xml

在configuration添加以下内容然后保存退出

<property>

<name>fs.defaultFS</name>

<value>hdfs://python2:9000</value>

</property>

（1）配置hdfs-site.xml

在configuration添加以下内容然后保存退出

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

<property>

<name>dfs.namenode.name.dir</name>

<value>file:///home/hadoop/opt/tmp/dfs/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>file:///home/hadoop/opt/tmp/dfs/data</value>

</property>

<property>

<name>dfs.namenode.http-address</name>

<value>python2:50070</value>

</property>

（5）配置mapred-site.xmll

ll查看当前目录会发现没有mapred-site.xml文件，只有一个mapred-site.xml.template的文件，我们复制一份命名为mapred-site.xml： cpmapred-site.xml.template mapred-site.xml

在configuration添加以下内容然后保存退出

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

（6）配置yarn-site.xml

在configuration添加以下内容然后保存退出

<property>

<name>yarn.resourcemanager.hostname</name>

<value>python2</value>

</property>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

（7）修改 slaves

slaves

配置datanode的主机名称

python2

1．关闭防火墙和selinux

切换到root用户

关闭防火墙

临时关闭：systemctlstop firewalld

永久关闭：systemctldisable firewalld

查看状态：systemctlstatus firewalld

关闭selinux

临时关闭：setenforce0

永久关闭：vi/etc/selinux/config

修改 SELINUX=disabled

getenforce：查看状态

切换到root用户

关闭防火墙

关闭selinux

重启机器 reboot

重新连接，登录hadoop

查看防火墙和selinux状态

5．执行hdfs文件系统格式化:hdfsnamenode -format

6．配置ssh无密码登录

输入ssh-keygen -t rsa 一直回车

ssh-copy-id 你想登录到的计算机名输入hadoop的密码

启动服务 start-dfs.sh（如果没有配置ssh 无密码登录，那么这里会一直提示输入密码）

查看启动的服务 jps

start-yarn.sh 及jps

1．浏览器访问，输入python2:50070

成功显示！

七．文件上传

1．创建一个目录 hadoop fs-mkdir -p /user/hadoop

1．文件上传

新建一个文件

写入内容

保存退出（快捷键 esc-shift（按住）-z-z）

上传

查看

八．Anaconda的安装

1．上传

1．安装前需要安装bzip2 yum -y install bzip2

（1）需要root用户，切换用户

（2）yum -y install bzip2 安装bzip2

（3）退出root用户

3．开始安装Anaconda bash Anaconda3-5.0.1-Linux-x86_64.sh

输入yes

等待

完成

4．更新环境变量

5．查看jupter地址 jupyter-notebook --ip python2

6．进浏览器，输入你复制的地址

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

大数据入门（五）windows上搭建单机版Hadoop2.8（踩坑记录）

目錄安裝jdk1、下載jdk的包並安裝2、配置環境變量3、驗證Hadoop安裝和配置1、下載Hadoop包及安裝2、環境變量配置Hadoop的文件修改1、core-site.xml2、mapred-site.xml（hadoop2

2020-07-08 12:35:24

大数据入门（七）win10上eclipse使用Hadoop的配置

目錄工具eclipse的Hadoop環境配置參考系列：大數據入門（一）環境搭建，VMware15+CentOS8.1 配置 https://blog.csdn.net/qq_34391511/article/details/1

2020-07-08 12:35:23

学习Hadoop第一个MapReduce程序WordCount的详解

WordCount官方代碼的詳解作爲小白的我初次在hadoop裏接觸mapReduce程序，難免會有些費解以及難懂代碼所蘊含的意思，經過自己查閱資料以及消化，便得到下面代碼的的解釋： package homework; imp

2020-07-08 12:33:27

WordCount大变身做一些简单的数据处理应用案列

目錄前言任務描述任務分析MapReduce默認排序規則代碼實現任務最終效果 ———————————————————————————————————————— 前言 WordCount算是我們學習hadoop的第一分佈式計算程序了，

2020-07-08 12:33:17

Hadoop集群里执行程序出现异常就要寻找日志文件查看情况

當我們運行Hadoop執行我們的程序時，很多時候因爲我們的各種無法猜測得到的原因導致程序執行出現異常情況，當然這時的我們也會很苦惱並大聲尖叫“太TM難了，嗚嗚嗚~”，莫着急！出現這樣的情況就需要我們冷靜下來啦，現在我們就需要去尋

2020-07-08 12:33:16

hadoop入门习题集

以下是我上hadoop課程時由老師提供的習題集（利用Hadoop提供的shell命令完成任務）：一、將HDFS中指定文件的內容輸出到終端中；二、顯示HDFS中指定的文件的讀寫權限、大小、創建時間、路徑等信息；三、給定HD

2020-07-08 12:33:16

关于IP地址与主机名映射的/etc/hosts文件配置

爲什麼要這樣做？首先，在hadoop工作就像是一個社團幫派，master是老大，而slave1、slave2等就是master的小弟。但是，slave並沒有像我們那麼聰明一眼就能分辨出自己的老大，它們是以ip地址作爲辨別的。那麼

2020-07-08 12:33:16

Hadoop-02 HDFS简介读写文件

Hadoop - HDFS 簡介 Hadoop Distributed File System，分佈式文件系統架構 Block數據塊基本存儲單位，一般大小爲64M 配置大的塊主要原因：減少搜尋時間，一般硬盤傳輸速率比

2020-07-08 12:26:19

Hadoop-03 Yarn

YARN - ResourceManager 負責全局的資源管理和任務調度，把整個集羣當成計算資源池，只關注分配，不管應用，且不負責容錯資源管理以前資源是每個節點分成一個個的Map slot和Reduce slot，現在是

2020-07-08 12:26:19

Hadoop -04 MapReduce介绍

Hadoop-MapReduce MapReduce是一個框架，我們可以使用它來編寫應用程序，以可靠的方式並行地處理大量商品硬件羣集上的大量數據。什麼是MapReduce？ MapReduce是一種基於java的分佈式計算的處理

2020-07-08 12:26:19

Hadoop-01 hadoop简介安装配置测试

Hadoop - 簡介 Hadoop可運行於一般的商用服務器上，具有高容錯、高可靠性、高擴展性等特點特別適合寫一次，讀多次的場景適合大規模數據流式數據（寫一次，讀多次）商用硬件（一般硬件）不適合低延時的數據訪問

2020-07-08 12:26:19

hadoop的DistributedCache

DistributedCache類主要用來設定文件，jar等。其的思想就是將指定的文件（必須在hdfs文件系統上面）在每一個task運行的地方都複製一份數據，所以在map或reduce函數中讀取DistributedCache設定的文件就

2020-07-08 11:59:45

hive配置教程详解

使用到的工具 xshell centos7 xtpf apache-hive-2.3.6-bin mysql的驅動第一步：將下載好的hive安裝包上傳到/usr/local目錄下解壓解壓命令 tar -zxvf apache-

2020-07-08 11:12:13

hbase2.1.6 mr

1.hbase配置mapreduce依賴包編輯Hadoop的hadoop-env.sh文件 2.重啓hbase和Hadoop 上面配置爲hadoop-env.sh後，需要重啓才能生效。 3.在HBASE_HOME下運行命令即可 /v

2020-07-08 10:43:37

伪分布Hadoop2.7.6 hbase2.1.8升级到Hadoop3.1.3 hbase2.1.10

如果Hadoop集羣配置了高可用，則可以進行不停服的滾動升級。但現在是僞分佈的單節點集羣，因此需要停止Hadoop及相關的應用，包括hbase、zookeeper等。 Hadoop升級因爲目前有跑flink作業，checkpoint是放

2020-07-08 10:43:24

24小時熱門文章

最新文章

最新評論文章