Hadoop安裝配置之僞分佈式安裝

Hadoop僞分佈式安裝

  • 版本選擇2.7.X,我選擇的是2.7.3
  • 安裝過程

  • 安裝前準備

    (1)上傳解壓
    (2)查看目錄結構(刪除以下文件)
    bin/*.cmd
    sbin/*.cmd
    share/doc
    (3)修改3個模塊的環境變量,修改JAVA_HOME的值爲jdk的安裝路徑
    hadoop-env.sh(23行)
    yarn-env.sh(26行)
    mapred-env.sh(16行,需要先取消註釋再修改)
    給三個文件增加執行權限
    chmod u+x hadoop-env.sh yarn-env.sh mapred-env.sh

  • 按照模塊來進行配置
    Hadoop官網有部分配置信息,但是不全http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distributed_Operation

    (1)common(在Hadoop安裝目錄的/etc/hadoop下)

    修改core-site.xml文件
    可以將原有的註釋都刪掉,配置如下圖,將local更改爲自己的主機名,在Hadoop目錄下創建自己的臨時目錄
    這裏寫圖片描述
    (2)HDFS
    修改hdfs-site.xml文件
    這裏寫圖片描述
    slaves
    修改slaves文件
    這裏寫圖片描述
    啓動HDFS:
    第一次使用文件系統需要格式化
    ->格式化文件系統
    先切換到Hadoop安裝的根目錄下
    bin/hdfs namenode -format
    這裏寫圖片描述
    ->啓動主節點
    sbin/hadoop-daemon.sh start namenode
    ->啓動從節點
    sbin/hadoop-daemon.sh start datanode
    檢查成功的兩種方式
    a、Hadoop安裝目錄下輸入jps(或 ps -ef|grep java)
    這裏寫圖片描述
    b、通過webUI界面查看(看到以下界面爲成功)
    hostname:50070
    這裏寫圖片描述
    (3)配置YARN
    修改yarn-site.xml
    這裏寫圖片描述
    ->啓動主節點
    sbin/yarn-daemon.sh start resourcemanager
    ->啓動從節點
    sbin/yarn-daemon.sh start nodemanager
    檢查成功的兩種方式
    a、jps(ps -ef|grep java)
    這裏寫圖片描述
    b、webUI界面查看
    hostname.8088
    這裏寫圖片描述
    (4)配置MapReduce
    etc目錄下沒有mapred-site.xml文件,但是有mapred-site.xml.template文件,需要將mapred-site.xml.template文件賦值一份到當前文件夾,且文件名爲mapred-site.xml
    先切換到Hadoop安裝目錄下的etc/hadoop下
    然後:cp mapred-site.xml.template mapred-site.xml
    修改mapred-site.xml文件
    這裏寫圖片描述

    測試HDFS
    幫助文檔

    bin/hdfs dfs
    HDFS文件系統目錄和Linux目錄結構類似,
    命令也類似
    創建目錄:
    bin/hdfs dfs -mkdir /datas
    查看目錄:
    bin/hdfs dfs -ls /datas
    上傳文件:
    bin/hdfs dfs -put /opt/datas/input.data /datas/
    查看文件內容:
    bin/hdfs dfs -text /datas/input.data
    bin/hdfs dfs -cat /datas/input.data

    下載文件:
    bin/hdfs dfs -get /datas/input.data ./
    刪除文件
    bin/hdfs dfs -rm -r /datas/input.data

    對於分佈式資源管理和任務調度來說哪些程序可以運行在YARN之上

    MapReduce
    並行數據處理框架
    spark
    基於內存分佈式處理框架
    storm/flink
    實時流式處理框架
    TeZ
    分析數據,比MapReduce速度快

    測試Hadoop

    mapreduce程序運行在YARN上
    通過經典程序案例,wordcount,
    Hadoop提到測試案例在share/mapreduce目錄下
    /opt/modules/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar
    -》準備數據,數據是放到hdfs上
    在HDFS系統下創建一個datas目錄
    bin/hdfs dfs -mkdir /datas
    準備一個文件,文件內容可以隨意添加單詞或字符,完了保存,將該文件上傳到HDFS上
    切換到Hadoop的安裝目錄下上傳文件
    bin/hdfs dfs -put /opt/datas/input.data /datas/
    http://bigdata-hpsk02.huadian.com:50070下查看結果
    這裏寫圖片描述
    -》提交運行
    bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /datas/input.data /output1
    hostname.8088能夠看到結果
    這裏寫圖片描述
    這裏寫圖片描述

    這裏寫圖片描述

    點擊上圖的history後會找不到頁面,需要配置歷史服務器

    進行運算的是mapred-site.xml,所以歷史服務器在mapred-site.xml中進行配置,增加以下的配置
    <property>
    <name>mapreduce.jobhistory.address</name>
    <value>bigdata-hpsk02.huadian.com:10020</value>
    </property>

    啓動歷史服務器
    sbin/mr-jobhistory-daemon.sh start historyserver
    這裏寫圖片描述
    注意:在啓動historyServer服務之前運行的job相關信息已經沒了,只有後面運行的纔有。
    成功後再執行一次詞頻統計測試,單擊history能夠進入以下頁面,端口號爲19888
    這裏寫圖片描述

    單擊上圖中標出的1,會報錯,還應該配置日誌內聚功能,因爲m、MapReduce運行在YARN之上,所以日誌內聚應該在yarn-site.xml文件中進行配置

    當MapReduce程序在YARN上運行完成之後,將產生日誌文件上傳到HDFS目錄中,以便後續查看。
    <!--日誌集聚功能-->
    <property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
    </property>

    ·
    <!--日誌存儲的時間1周 60minutes*60seconds*24hours*7days=604800-->
    <property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
    </property>

    這樣,整個僞分佈式Hadoop環境就搭建好了

發佈了56 篇原創文章 · 獲贊 74 · 訪問量 6萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章