linux安裝hadoop配置Yarn

1. 下載JDK,安裝部署JAVA環境。
(1)export JAVA_HOME=/home/xxx/jdk1.6.0_24
(2)export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
(3)export PATH=$JAVA_HOME/bin:$PATH

2. 設置ssh免登錄
(1) 在機器A上執行ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa,這個命令會在.ssh文件夾下產生id_dsa和id_dsa.pub兩個文件,這是ssh的一對私鑰和公鑰;
(2) 將A的公鑰id_dsa.pub分發出去,比如要實現A到B的登錄,則將A的公鑰註冊到B機器的autorized_keys中去;在A上執行cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys,因爲本地也需要打通;在B上執行cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys,注意id_dsa.pub是A的公鑰;

3. 下載解壓hadoop-2.0.5-alpha,進入到hadoop-2.0.5-alpha/etc/hadoop做如下修改

其中core-env.sh,hdfs-env.sh,mapred-env.sh,yarn-env.sh中的java路徑要改成目前使用的java路徑。

(1) 修改core-site.xml,配置hdfs   

<configuration>
	<property>
             <name>hadoop.tmp.dir</name>
             <value>file:/usr/local/hadoop/tmp</value>
             <description>Abase for other temporary directories.</description>
        </property>
        <property>
             <name>fs.defaultFS</name>
             <value>hdfs://localhost:9000</value>
        </property>

</configuration>

(2) 將mapred-site.xml.template重命名爲mapred-site.xml,配置爲yarn模式
<configuration>
	<property>
             <name>mapreduce.framework.name</name>
             <value>yarn</value>
        </property>
</configuration>





(3) 修改yarn-site.xml
<property>
             <name>yarn.nodemanager.aux-services</name>
             <value>mapreduce_shuffle</value>
            </property>

</configuration>


(4) 修改hdfs-site.xml
<configuration>
 	<property>
             <name>dfs.replication</name>
             <value>1</value>
        </property>
        <property>
             <name>dfs.namenode.name.dir</name>
             <value>file:/usr/local/hadoop/tmp/dfs/name</value>
        </property>
        <property>
             <name>dfs.datanode.data.dir</name>
             <value>file:/usr/local/hadoop/tmp/dfs/data</value>
        </property>	
</configuration>

(6) 啓動hdfs
可以使用以下命令分別啓動NameNode和DataNode
bin/hadoop namenode -format
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode (如果有多個datanode,需要使用hadoop-daemons.sh)
或者一次啓動:sbin/start-dfs.sh

(7) 啓動yarn
可以使用以下命令分別啓動ResourceManager和NodeManager
sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager(若有多個nodemanager,需要使用yarn-daemons.sh)
或者一次啓動:sbin/start-yarn.sh

啓動 Hadoop 時提示 Could not resolve hostname

如果啓動 Hadoop 時遇到輸出非常多“ssh: Could not resolve hostname xxx”的異常情況,如下圖所示:

啓動Hadoop時的異常提示啓動Hadoop時的異常提示

這個並不是 ssh 的問題,可通過設置 Hadoop 環境變量來解決。首先按鍵盤的 ctrl + c 中斷啓動,然後在 ~/.bashrc 中,增加如下兩行內容(設置過程與 JAVA_HOME 變量一樣,其中 HADOOP_HOME 爲 Hadoop 的安裝目錄):

  1. export HADOOP_HOME=/usr/local/hadoop
  2. export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
Shell

保存後,務必執行 source ~/.bashrc 使變量設置生效,然後再次執行 ./sbin/start-dfs.sh 啓動 Hadoop。

啓動完成後,可以通過命令 jps 來判斷是否成功啓動,若成功啓動則會列出如下進程: “NameNode”、”DataNode” 和 “SecondaryNameNode”(如果 SecondaryNameNode 沒有啓動,請運行 sbin/stop-dfs.sh 關閉進程,然後再次嘗試啓動嘗試)。如果沒有 NameNode 或 DataNode ,那就是配置不成功,請仔細檢查之前步驟,或通過查看啓動日誌排查原因。

通過jps查看啓動的Hadoop進程通過jps查看啓動的Hadoop進程

Hadoop無法正常啓動的解決方法

一般可以查看啓動日誌來排查原因,注意幾點:

  • 啓動時會提示形如 “DBLab-XMU: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-DBLab-XMU.out”,其中 DBLab-XMU 對應你的機器名,但其實啓動日誌信息是記錄在 /usr/local/hadoop/logs/hadoop-hadoop-namenode-DBLab-XMU.log 中,所以應該查看這個後綴爲 .log 的文件;
  • 每一次的啓動日誌都是追加在日誌文件之後,所以得拉到最後面看,對比下記錄的時間就知道了。
  • 一般出錯的提示在最後面,通常是寫着 Fatal、Error、Warning 或者 Java Exception 的地方。
  • 可以在網上搜索一下出錯信息,看能否找到一些相關的解決方法。

此外,若是 DataNode 沒有啓動,可嘗試如下的方法(注意這會刪除 HDFS 中原有的所有數據,如果原有的數據很重要請不要這樣做):

  1. # 針對 DataNode 沒法啓動的解決方法
  2. ./sbin/stop-dfs.sh # 關閉
  3. rm -r ./tmp # 刪除 tmp 文件,注意這會刪除 HDFS 中原有的所有數據
  4. ./bin/hdfs namenode -format # 重新格式化 NameNode
  5. ./sbin/start-dfs.sh # 重啓
Shell 命令

成功啓動後,可以訪問 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息,還可以在線查看 HDFS 中的文件。

Hadoop的Web界面

開啓後通過 jps 查看,可以看到多了 NodeManager 和 ResourceManager 兩個後臺進程,如下圖所示。

開啓YARN開啓YARN

啓動 YARN 之後,運行實例的方法還是一樣的,僅僅是資源管理方式、任務調度不同。觀察日誌信息可以發現,不啓用 YARN 時,是 “mapred.LocalJobRunner” 在跑任務,啓用 YARN 之後,是 “mapred.YARNRunner” 在跑任務。啓動 YARN 有個好處是可以通過 Web 界面查看任務的運行情況:http://localhost:8088/cluster,如下圖所示。

開啓YARN後可以查看任務運行信息開啓YARN後可以查看任務運行信息

但 YARN 主要是爲集羣提供更好的資源管理與任務調度,然而這在單機上體現不出價值,反而會使程序跑得稍慢些。因此在單機上是否開啓 YARN 就看實際情況了。

不啓動 YARN 需重命名 mapred-site.xml

如果不想啓動 YARN,務必把配置文件 mapred-site.xml 重命名,改成 mapred-site.xml.template,需要用時改回來就行。否則在該配置文件存在,而未開啓 YARN 的情況下,運行程序會提示 “Retrying connect to server: 0.0.0.0/0.0.0.0:8032” 的錯誤,這也是爲何該配置文件初始文件名爲 mapred-site.xml.template。



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章