Hadoop僞分佈式集羣搭建

這裏寫圖片描述
在以上的概念之中實際上只有以下幾個名詞:
· HDFS:分佈式文件系統,是負責信息保存的操作;
· 有一個最爲重要的概念就是所有的數據(默認)會保存有三份。
· 低廉硬件:512M內存可以跑,在整個的大數據的集羣設計裏面,可以不去使用小型機來進行配置,也可以使用一些便宜的電腦。


在Linux操作系統下:
爲了保證整個的Hadoop可以正常執行,需要考慮以下幾個問題:
· 你的主機名稱是什麼,如果需要修改主機名稱,則執行:vim /etc/hostname,本次設置的主機名稱爲:“hadoop-alone”,如果修改完成主機名稱之後請使用“reboot”重新啓動,否則無效;
· 在Hadoop操作的過程之中必須有一個前提:你的IP地址不允許發生變更,一旦有變更,配置失效;
1、 配置hosts文件,設置ip地址與主機名稱的映射,輸入:vim /etc/hosts

當前ip hadoop-alone

2、配置SSH連接(免登陸密碼)

rm -r ~/.ssh
ssh-keygen -t rsa

3、將生成ssh的公鑰信息保存在授權文件之中:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

4、安裝Hadoop

對於Hadoop而言,其安裝的過程實際上是比較簡單,
①使用wget取得:wget http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
②如果無法通過wget取得相應開發包則可以通過ftp上傳取得,將上傳後的hadoop開發包文件解壓縮。
本次測試安裝的路徑爲:/usr/local/hadoop
5、修改環境屬性將hadoop主目錄以及相關的可執行目錄配置到系統之中;

vim /etc/profile;

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:bin:$HADOOP_HOME/bin: $HADOOP_HOME/sbin:

修改保存後退出,並讓配置立即生效
6、編輯Hadoop配置文件hadoop-env.sh;

export JAVA_HOME=/usr/local/jdk

這裏寫圖片描述
7、修改“core-site.xml”文件,該文件作爲整個的Hadoop的核心配置文件:
· 建立Hadoop臨時的保存路徑:mkdir -p /usr/data/hadoop/tmp;

<configuration> 
    <property> 
        <name>hadoop.tmp.dir</name> 
        <value>/usr/data/hadoop/tmp</value> 
        <description>Abase for other temporary directories.</description> 
    </property> 
    <property> 
        <name>fs.defaultFS</name> 
        <value>hdfs://hadoop-alone:9000</value> 
    </property> 
</configuration>

本配置文件的主要目的是設置hadoop的臨時保存目錄,但是這個目錄絕對不允許使用“/tmp”目錄,因爲這個目錄會被自動清空,一旦清空了你的配置就完了;
“fs.defaultFS”描述的是默認的文件系統的操作路徑:
修改“hdfs-site.xml”文件,進行存儲的配置;

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///usr/data/hadoop/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///usr/data/hadoop/dfs/data</value>
    </property>
    <property>
        <name>dfs.namenode.http-address</name>
        <value>hadoop-alone:50070</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop-alone:50090</value>
    </property>
    <property> 
        <name>dfs.permissions</name>
        <value>false</value>
     </property>
</configuration>

在此配置文件之中有如下幾個重要的項:
· “dfs.replication”:文件保存的副本數量,副本保存在DataNode之中,現在只有一個主機,所以只存1份;
· “dfs.namenode.name.dir”:保存namenode節點信息的相關操作;
· “dfs.datanode.data.dir”:保存真實數據;
· “dfs.namenode.http-address”:Hadoop啓動之後會自動啓動有一個HTTP服務,通過瀏覽器可以訪問;
· “dfs.namenode.secondary.http-address”:SecondaryNameNode節點的HTTP訪問;
· “dfs.permissions”:表示的是hdfs操作權限,設置爲false表示不驗證。
修改“yarn-site.xml”文件;

<configuration>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>hadoop-alone:8033</value>
        </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
      </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>hadoop-alone:8025</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>hadoop-alone:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>hadoop-alone:8050</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>hadoop-alone:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>hadoop-alone:8088</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.https.address</name>
        <value>hadoop-alone:8090</value>
    </property>
</configuration>

修改slaves配置信息
hadoop/etc/hadoop/slaves

hadoop-alone

8、此時相關的配置環境配置完成,隨後需要對namenode節點進行格式化處理;

hdfs namenode -format

提示 Exiting with status 0 則表示配置成功
如果現在服務已經啓動,則可以在外部通過瀏覽器的模式來觀察,連接地址:http:// 服務器IP :50070

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章