Linux下搭建Hadoop分佈式教程

1、首先在Linux中安裝jdk與Hadoop,解壓及安裝成功後配置環境變量。

vi /etc/profile 

打開文件後,將下面這段代碼複製進去

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_231
export PATH=$PATH:$JAVA_HOME/bin
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.3
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
 

一段是jdk的環境變量,還有一段是Hadoop的環境變量。

配置好後,可以通過javac與java -version命令去檢查jdk的環境變量是否配置成功。

Hadoop可以通過 輸入start -d  當使用tab補全的時候 出現  start-dfs.sh即配置成功。

檢查防火牆是否關閉:systemctl status firewalld 

進入到 /opt/module/hadoop-2.7.3/etc/hadoop目錄中,裏面有很多配置文件,這裏需要配置的文件有四個

(1)core-site.xml 

        <!-- 指定HDFS中NameNode的地址 -->
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://bigdata1:9000</value>
        </property>
        <!-- 指定Hadoop運行時產生文件的存儲目錄-->
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/opt/module/hadoop-2.7.3/data</value>
        </property>

將文件複製進配置文件中的如下位置,bigdata1爲主機名稱 。

(2)hdfs-site.xml

       <!--數據冗餘(備份)數-->
        <property>
                <name>dfs.replication</name>
                <value>3</value>
        </property>

        <!--secondary的NameNode的地址,端口號爲50090-->
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>bigdata1:50090</value>
        </property>

        <!-- 關閉權限-->
        <property>
                <name>dfs.permissions</name>
                <value>false</value>
        </property>
 

(3)yarn-site.xml

        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>

        <!-- 指定YARN的ResourceManager的地址 -->
        <property>
                 <name>yarn.resourcemanager.hostname </name>
                 <value>bigdata1</value>
         </property>

         <!-- 日誌聚集功能 -->
         <property>
                 <name>yarn.log-aggregation-enable </name>
                 <value>true</value>
         </property>

         <!-- 日誌保留時間 設置7天(秒) -->
         <property>
                  <name>yarn.log-aggregation.retain-seconds </name>
                  <value>604800</value>
         </property>

(4) mapred-site.xml

首先 cp mapred-site.xml.template mapred-site.xml   

因爲文件夾中只有mapred-site.xml.template 這個文件 所以要把這個文件改名爲 mapred-site.xml 

        <!-- 指定MR運行在YARN上 -->
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>

        <!-- 歷史服務器的地址 -->
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>bigdata1:10020</value>
        </property>

        <!-- 歷史服務器頁面的地址 -->
        <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>bigdata1:19888</value>
        </property>

上面幾步完成後需要將jdk的環境變量(export JAVA_HOME=/opt/module/jdk1.8.0_231)

複製出來加入到下面幾個文件中,都是直接放在文件的最後一行

hadoop-env.sh

yarn-env.sh

mapred-env.sh

最後一步,打開 slaves 這個文件,將裏面的localhost改爲你的主機的名稱。

 

之後對所配置的文件進行格式化   hdfs namenode -format

格式化之後進行啓動   start-all.sh  

此時當他要你輸入密碼的時候就將你的密碼輸入進去,

當啓動成功之後,在瀏覽器裏面輸入你的 主機IP:50070 查看是否可以訪問成功

 

當出現如下頁面的時候即已成功,到此僞分佈式算是搭建成功。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章