一步步教你Hadoop多節點集羣安裝配置

1、集羣部署介紹

1.1 Hadoop簡介

clip_image001[12] Hadoop是Apache軟件基金會旗下的一個開源分佈式計算平臺。以Hadoop分佈式文件系統HDFS(Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的開源實現)爲核心的Hadoop爲用戶提供了系統底層細節透明的分佈式基礎架構。

對於Hadoop的集羣來講,可以分成兩大類角色:MasterSalve。一個HDFS集羣是由一個NameNode和若干個DataNode組成的。其中NameNode作爲主服務器,管理文件系統的命名空間和客戶端對文件系統的訪問操作;集羣中的DataNode管理存儲的數據。MapReduce框架是由一個單獨運行在主節點上的JobTracker和運行在每個從節點的TaskTracker共同組成的。主節點負責調度構成一個作業的所有任 務,這些任務分佈在不同的從節點上。主節點監控它們的執行情況,並且重新執行之前的失敗任務;從節點僅負責由主節點指派的任務。當一個Job被提交時,JobTracker接收到提交作業和配置信息之後,就會將配置信息等分發給從節點,同時調度任務並監控TaskTracker的執行。

從上面的介紹可以看出,HDFS和MapReduce共同組成了Hadoop分佈式系統體系結構的核心。HDFS在集羣上實現分佈式文件系統MapReduce在集羣上實現了分佈式計算任務處理。HDFS在MapReduce任務處理過程中提供了文件操作和存儲等支持,MapReduce在HDFS的基礎上實現了任務的分發、跟蹤、執行等工作,並收集結果,二者相互作用,完成了Hadoop分佈式集羣的主要任務。

1.2 環境說明

我的環境是在虛擬機中配置的,Hadoop集羣中包括4個節點:1個Master,2個Salve,節點之間局域網連接,可以相互ping通,節點IP地址分佈如下:

 

虛擬機系統

機器名稱

IP地址

Ubuntu 13.04

Master.Hadoop

192.168.1.141

Ubuntu 9.11

Salve1.Hadoop

192.168.1.142

Fedora 17

Salve2.Hadoop

192.168.1.137

 

Master機器主要配置NameNode和JobTracker的角色,負責總管分佈式數據和分解任務的執行;3個Salve機器配置DataNode 和TaskTracker的角色,負責分佈式數據存儲以及任務的執行。其實應該還應該有1個Master機器,用來作爲備用,以防止Master服務器宕機,還有一個備用馬上啓用。後續經驗積累一定階段後補上一臺備用Master機器(可通過配置文件修改備用機器數)。

    注意:由於hadoop要求所有機器上hadoop的部署目錄結構要求相同(因爲在啓動時按與主節點相同的目錄啓動其它任務節點),並且都有一個相同的用戶名賬戶。參考各種文檔上說的是所有機器都建立一個hadoop用戶,使用這個賬戶來實現無密碼認證。這裏爲了方便,分別在三臺機器上都重新建立一個hadoop用戶。

1.3 環境配置

Hadoop集羣要按照1.2小節表格所示進行配置,下面介紹如何修改機器名稱和配置hosts文件,以方便使用。

注意:我的虛擬機都採用NAT方式連接網絡,IP地址是自動分配的,所以這裏就使用自動分配的IP地址而未特地修改爲某些IP地址。

(1)修改當前機器名稱

假定我們發現我們的機器的主機名不是我們想要的。

1)在Ubuntu下修改機器名稱

修改文件/etc/hostname裏的值即可,修改成功後用hostname命令查看當前主機名是否設置成功。

clip_image002[12]

       另外爲了能正確解析主機名,最好也修改/etc/hosts文件裏對應的主機名 
       clip_image003[12]

2)在Fedora下修改機器名稱

通過對"/etc/sysconfig/network"文件修改其中"HOSTNAME"後面的值,改成我們規定的名稱。

命令:vi /etc/sysconfig/network,修改如下: 
    clip_image004[12] 
        clip_image005[12]

    同樣爲了能正確解析主機名,最好也修改/etc/hosts文件裏對應的主機名。

(2)配置hosts文件(必須

"/etc/hosts"這個文件是用來配置主機將用的DNS服務器信息,是記載LAN內接續的各主機的對應[HostName  IP]用的。當用戶在進行網絡連接時,首先查找該文件,尋找對應主機名對應的IP地址。

我們要測試兩臺機器之間知否連通,一般用"ping 機器的IP",如果想用"ping 機器的主機名"發現找不見該名稱的機器(這也就是爲什麼在修改主機名的同時最好修改該文件中對應的主機名),解決的辦法就是修改"/etc/hosts"這個文件,通過把LAN內的各主機的IP地址和HostName的一一對應寫入這個文件的時候,就可以解決問題。

例如:機器爲"Master.Hadoop:192.168.1.141"對機器爲"Salve1.Hadoop:192.168.1.142"用命令"ping"記性連接測試。測試結果如下: 
    clip_image006[12]

從上圖中的值,直接對IP地址進行測試,能夠ping通,但是對主機名進行測試,發現沒有ping通,提示"unknown host——未知主機",這時查看"Master.Hadoop"的"/etc/hosts"文件內容會發現裏面沒有"192.168.1.142  Slave1.Hadoop"內容,故而本機器是無法對機器的主機名爲"Slave1.Hadoop" 解析。

在進行Hadoop集羣配置中,需要在"/etc/hosts"文件中添加集羣中所有機器的IP與主機名,這樣Master與所有的Slave機器之間不僅可以通過IP進行通信,而且還可以通過主機名進行通信。所以在所有的機器上的"/etc/hosts"文件中都要添加如下內容:

192.168.1.141 Master.Hadoop

192.168.1.142 Slave1.Hadoop

192.168.1.137 Slave2.Hadoop

命令:vi /etc/hosts,添加結果如下: 
clip_image007[12]

現在我們在進行對機器爲"Slave1.Hadoop"的主機名進行ping通測試,看是否能測試成功。

clip_image009[12]

從上圖中我們已經能用主機名進行ping通了,說明我們剛纔添加的內容,在局域網內能進行DNS解析了,那麼現在剩下的事兒就是在其餘的Slave機器上進行相同的配置。然後進行測試。

1.4 所需軟件

(1)JDK軟件

    下載地址:http://www.oracle.com/technetwork/java/javase/index.html

    JDK版本:jdk-7u25-linux-i586.tar.gz

(2)Hadoop軟件

    下載地址:http://hadoop.apache.org/common/releases.html

    Hadoop版本:hadoop-1.1.2.tar.gz

2、SSH無密碼驗證配置

Hadoop運行過程中需要管理遠端Hadoop守護進程,在Hadoop啓動以後,NameNode是通過SSH(Secure Shell)來啓動和停止各個DataNode上的各種守護進程的。這就必須在節點之間執行指令的時候是不需要輸入密碼的形式,故我們需要配置SSH運用無密碼公鑰認證的形式,這樣NameNode使用SSH無密碼登錄並啓動DataName進程,同樣原理,DataNode上也能使用SSH無密碼登錄到 NameNode。

注意:如果你的Linux沒有安裝SSH,請首先安裝SSH

Ubuntu下安裝ssh:sudo apt-get install openssh-server

Fedora下安裝ssh:yum install openssh-server

2.1 SSH基本原理和用法

1)SSH基本原理

    SSH之所以能夠保證安全,原因在於它採用了公鑰加密。過程如下:

(1)遠程主機收到用戶的登錄請求,把自己的公鑰發給用戶。

(2)用戶使用這個公鑰,將登錄密碼加密後,發送回來。

(3)遠程主機用自己的私鑰,解密登錄密碼,如果密碼正確,就同意用戶登錄。

2)SSH基本用法

    假如用戶名爲java,登錄遠程主機名爲linux,如下命令即可:

    $ ssh java@linux

    SSH的默認端口是22,也就是說,你的登錄請求會送進遠程主機的22端口。使用p參數,可以修改這個端口,例如修改爲88端口,命令如下:

    $ ssh -p 88 java@linux

    注意:如果出現錯誤提示:ssh: Could not resolve hostname linux: Name or service not known,則是因爲linux主機未添加進本主機的Name Service中,故不能識別,需要在/etc/hosts裏添加進該主機及對應的IP即可:

    linux     192.168.1.107

2.2 配置Master無密碼登錄所有Salve

1)SSH無密碼原理

Master(NameNode | JobTracker)作爲客戶端,要實現無密碼公鑰認證,連接到服務器Salve(DataNode | Tasktracker)上時,需要在Master上生成一個密鑰對,包括一個公鑰和一個私鑰,而後將公鑰複製到所有的Slave上。當Master通過SSH連接Salve時,Salve就會生成一個隨機數並用Master的公鑰對隨機數進行加密,併發送給Master。Master收到加密數之後再用私鑰解密,並將解密數回傳給Slave,Slave確認解密數無誤之後就允許Master進行連接了。這就是一個公鑰認證過程,其間不需要用戶手工輸入密碼。

2)Master機器上設置無密碼登錄

a. Master節點利用ssh-keygen命令生成一個無密碼密鑰對。

在Master節點上執行以下命令:

ssh-keygen –t rsa –P ''

運行後詢問其保存路徑時直接回車採用默認路徑。生成的密鑰對:id_rsa(私鑰)和id_rsa.pub(公鑰),默認存儲在"/home/用戶名/.ssh"目錄下。 
      clip_image010[12]

查看"/home/用戶名/"下是否有".ssh"文件夾,且".ssh"文件下是否有兩個剛生產的無密碼密鑰對。

    clip_image011[12]

b. 接着在Master節點上做如下配置,把id_rsa.pub追加到授權的key裏面去。

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

clip_image012[12]

查看下authorized_keys的權限,如果權限不對則利用如下命令設置該文件的權限:

chmod 600 authorized_keys

c. 用root用戶登錄修改SSH配置文件"/etc/ssh/sshd_config"的下列內容。

檢查下面幾行前面”#”註釋是否取消掉:

RSAAuthentication yes # 啓用 RSA 認證

PubkeyAuthentication yes # 啓用公鑰私鑰配對認證方式

AuthorizedKeysFile  %h/.ssh/authorized_keys # 公鑰文件路徑 
    clip_image013[12]

設置完之後記得重啓SSH服務,才能使剛纔設置有效。

    clip_image014[12]   

退出root登錄,使用普通用戶驗證是否設置成功。

clip_image015[12] 

從上圖中得知無密碼登錄本級已經設置完畢,接下來的事兒是把公鑰複製

Slave機器上。

    注意:有時候在測試時可能會出現錯誤: Agent admitted failure to sign using the key.解決辦法是:ssh-add   ~/.ssh/id_rsa ,如下所示:

   clip_image016[12]

    d.使用ssh-copy-id命令將公鑰傳送到遠程主機上(這裏以Slave1.Hadoop爲例)。

clip_image018[12]

e. 測試是否無密碼登錄其它機器成功。

clip_image020[12]

到此爲止,我們經過5步已經實現了從"Master.Hadoop"到"Slave1.Hadoop"SSH無密碼登錄,下面就是重複上面的步驟把剩餘的兩臺(Slave2.Hadoop和Slave3.Hadoop)Slave服務器進行配置。這樣,我們就完成了"配置Master無密碼登錄所有的Slave服務器"。

接下來配置所有Slave無密碼登錄Master,其和Master無密碼登錄所有Slave原理一樣,就是把Slave的公鑰追加到Master的".ssh"文件夾下的"authorized_keys"中,記得是追加(>>

注意:期間可能會出現一些問題如下:

(1)如果在ssh連接時出現錯誤“ssh:connect to host port 22: Connection refused”,如下圖所示: 
clip_image021[12]

則可能是因爲遠程登錄的那臺機器沒有安裝ssh服務或安裝了沒有開啓ssh服務,下面到Slave3.Hadoop主機進行測試: 
clip_image023[12]

爲了一勞永逸,設置系統啓動時開啓服務:# systemctl enable sshd.service 
clip_image025[12]

(2)如果在用命令ssh-copy-id時發現找不到該命令“ssh-copy-id:Command not found”,則可能是ssh服務的版本太低的原因,比如若你的機器是Redhat系統就可能該問題,解決辦法是:手動複製本地的pubkey內容到遠程服務器,命令如下:

 cat ~/.ssh/id_rsa.pub | ssh [email protected] 'cat >> ~/.ssh/authorized_keys'

該命令等價於下面兩個命令:

①在本地機器上執行:scp ~/.ssh/id_rsa.pub [email protected]:/~

②到遠程機器上執行:cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

clip_image027[12]

3、Java環境安裝

所有的機器上都要安裝JDK,現在就先在Master服務器安裝,然後其他服務器按照步驟重複進行即可。安裝JDK以及配置環境變量,需要以"root"的身份進行。

3.1 安裝JDK

首先用root身份登錄"Master.Hadoop"後在"/usr"下創建"java"文件夾,再將"jdk-7u25-linux-i586.tar.gz"複製到"/usr/java"文件夾中,然後解壓即可。查看"/usr/java"下面會發現多了一個名爲"jdk1.7.0_25"文件夾,說明我們的JDK安裝結束,刪除"jdk-7u25-linux-i586.tar.gz"文件,進入下一個"配置環境變量"環節。

3.2 配置環境變量

(1)編輯"/etc/profile"文件

    編輯"/etc/profile"文件,在後面添加Java的"JAVA_HOME"、"CLASSPATH"以及"PATH"內容如下:

# set java environment

export JAVA_HOME=/usr/java/jdk1.7.0_25/

export JRE_HOME=/usr/java/jdk1.7.0_25/jre

export CLASSPATH=.:CLASSPATH:JAVA_HOME/lib:$JRE_HOME/lib

export PATH=PATH:JAVA_HOME/bin:$JRE_HOME/bin

或者

# set java environment

export JAVA_HOME=/usr/java/jdk1.7.0_25/

export CLASSPATH=.:CLASSPATH:JAVA_HOME/lib:$JAVA_HOME/jre/lib

export PATH=PATH:JAVA_HOME/bin:$JAVA_HOME/jre/bin

以上兩種意思一樣,那麼我們就選擇第1來進行設置。

clip_image028[12]

(2)使配置生效

保存並退出,執行下面命令使其配置立即生效。

source /etc/profile 或 . /etc/profile

clip_image029[11]

3.3 驗證安裝成功

配置完畢並生效後,用下面命令判斷是否成功。

java -version

clip_image030[11]

從上圖中得知,我們確定JDK已經安裝成功。

3.4 安裝剩餘機器

這時用普通用戶hadoop通過scp命令格式把"/usr/java/"文件複製到其他Slave上面,剩下的事兒就是在其餘的Slave服務器上按照上圖的步驟配置環境變量和測試是否安裝成功,這裏以Slave1.Master爲例:

scp -r /usr/java [email protected]:/usr/ 

注意:有的機器庫函數版本較低,可能安裝不了高版本的JDK,比如有些Redhat9,此時不可以選擇較低版本的JDK進行安裝,因爲所有集羣中的JDK版本必須相同(經過測試),有兩種方法可解決:一是放棄該機器,選用另一臺能裝該版本的JDK的機子;二是選擇低版本的JDK,在所有機器上重新安裝。

4、Hadoop集羣安裝

所有的機器上都要安裝hadoop,現在就先在Master服務器安裝,然後其他服務器按照步驟重複進行即可。安裝和配置hadoop需要以"root"的身份進行。

4.1 安裝hadoop

首先用root用戶登錄"Master.Hadoop"機器,將下載的"hadoop-1.1.2.tar.gz"複製到/usr目錄下。然後進入"/usr"目錄下,用下面命令把"hadoop-1.1.2.tar.gz"進行解壓,並將其重命名爲"hadoop",把該文件夾的讀權限分配給普通用戶hadoop,然後刪除"hadoop-1.0.0.tar.gz"安裝包。

cd /usr

tar –xzvf hadoop-1.1.2.tar.gz

mv hadoop-1.1.2 hadoop

chown –R hadoop:hadoop hadoop #將文件夾"hadoop"讀權限分配給hadoop普通用戶

rm -rf hadoop-1.1.2.tar.gz

最後在"/usr/hadoop"下面創建tmp文件夾,並把Hadoop的安裝路徑添加到"/etc/profile"中,修改"/etc/profile"文件,將以下語句添加到末尾,並使其生效(. /etc/profile):

# set hadoop path

export HADOOP_HOME=/usr/hadoop

export PATH=PATH:HADOOP_HOME/bin

clip_image031[11]

4.2 配置hadoop

(1)配置hadoop-env.sh

該"hadoop-env.sh"文件位於"/usr/hadoop/conf"目錄下。

在文件中修改下面內容:

export JAVA_HOME=/usr/java/jdk1.7.0_25

clip_image032[11]

Hadoop配置文件在conf目錄下,之前的版本的配置文件主要是Hadoop-default.xml和Hadoop-site.xml。 由於Hadoop發展迅速,代碼量急劇增加,代碼開發分爲了core,hdfs和map/reduce三部分,配置文件也被分成了三個core- site.xml、hdfs-site.xml、mapred-site.xml。core-site.xml和hdfs-site.xml是站在 HDFS角度上配置文件;core-site.xml和mapred-site.xml是站在MapReduce角度上配置文件。

 (2)配置core-site.xml文件

修改Hadoop核心配置文件core-site.xml,這裏配置的是HDFS master(即namenode)的地址和端口號。

<configuration>

    <property>

        <name>hadoop.tmp.dir</name>

        <value>/usr/hadoop/tmp</value>

        (備註:請先在 /usr/hadoop 目錄下建立 tmp 文件夾)

        <description>A base for other temporary directories.</description>

    </property>

<!-- file system properties -->

    <property>

        <name>fs.default.name</name>

        <value>hdfs://192.168.1.141:9000</value>

    </property>

</configuration>

備註:如沒有配置hadoop.tmp.dir參數,此時系統默認的臨時目錄爲:/tmp/hadoo-hadoop。而這個目錄在每次重啓後都會被刪掉,必須重新執行format才行,否則會出錯。

clip_image033[11]

(3)配置hdfs-site.xml文件

修改Hadoop中HDFS的配置,配置的備份方式默認爲3。

<configuration>

    <property>

        <name>dfs.replication</name>

        <value>1</value>

        (備註:replication 是數據副本數量,默認爲3,salve少於3臺就會報錯)

    </property>

<configuration>

 clip_image034[11]

(4)配置mapred-site.xml文件

修改Hadoop中MapReduce的配置文件,配置的是JobTracker的地址和端口。

<configuration>

    <property>

        <name>mapred.job.tracker</name>

        <value>http://192.168.1.141:9001</value>

    </property>

</configuration>

clip_image035[11]

(5)配置masters文件

有兩種方案:

    (1)第一種

    修改localhost爲Master.Hadoop

    (2)第二種

    去掉"localhost",加入Master機器的IP:192.168.1.141

爲保險起見,啓用第二種,因爲萬一忘記配置"/etc/hosts"局域網的DNS失效,這樣就會出現意想不到的錯誤,但是一旦IP配對,網絡暢通,就能通過IP找到相應主機。

clip_image036[11]

(6)配置slaves文件(Master主機特有

    有兩種方案:

    (1)第一種

    去掉"localhost",每行添加一個主機名,把剩餘的Slave主機名都填上。

    例如:添加形式如下:

Slave1.Hadoop

Slave2.Hadoop

    (2)第二種

    去掉"localhost",加入集羣中所有Slave機器的IP,也是每行一個。

    例如:添加形式如下

192.168.1.142

192.168.1.137

原因和添加"masters"文件一樣,選擇第二種方式。

clip_image037[11]

現在在Master機器上的Hadoop配置就結束了,剩下的就是配置Slave機器上的Hadoop。

最簡單的方法是將 Master上配置好的hadoop所在文件夾"/usr/hadoop"複製到所有的Slave的"/usr"目錄下(實際上Slave機器上的slavers文件是不必要的, 複製了也沒問題)。用下面命令格式進行。(備註:此時用戶可以爲普通用戶也可以爲root)   

scp -r /usr/hadoop root@服務器IP:/usr/

例如:從"Master.Hadoop"到"Slave1.Hadoop"複製配置Hadoop的文件。

scp -r /usr/hadoop root@Slave1.Hadoop:/usr/

以root用戶進行復制,當然不管是用戶root還是普通用戶,雖然Master機器上的"/usr/hadoop"文件夾用戶hadoop有權限,但是Slave1上的hadoop用戶卻沒有"/usr"權限,所以沒有創建文件夾的權限。所以無論是哪個用戶進行拷貝,右面都是"root@機器 IP"格式。因爲我們只是建立起了普通用戶的SSH無密碼連接,所以用root進行"scp"時,扔提示讓你輸入"Slave1.Hadoop"服務器用戶root的密碼。

clip_image039[11]

    查看"Slave1.Hadoop"服務器的"/usr"目錄下是否已經存在"hadoop"文件夾,確認已經複製成功。查看結果如下:

clip_image040[11] 

從上圖中知道,hadoop文件夾確實已經複製了,但是我們發現hadoop權限是root,所以我們現在要給"Slave1.Hadoop"服務器上的用戶hadoop添加對"/usr/hadoop"讀權限。

root用戶登錄"Slave1.Hadoop",執行下面命令。

chown -R hadoop:hadoop(用戶名:用戶組) hadoop(文件夾

接着在"Slave1 .Hadoop"上修改"/etc/profile"文件,將以下語句添加到末尾,並使其有效(source /etc/profile):

# set hadoop environment

export HADOOP_HOME=/usr/hadoop

export PATH=PATH:HADOOP_HOME/bin

如果不知道怎麼設置,可以查看前面"Master.Hadoop"機器的"/etc/profile"文件的配置,到此爲止在一臺Slave機器上的Hadoop配置就結束了。剩下的事兒就是照葫蘆畫瓢把剩餘的幾臺Slave機器進行部署Hadoop。

4.3 啓動及驗證

(1)格式化HDFS文件系統

在"Master.Hadoop"上使用普通用戶hadoop進行操作。(備註:只需一次,下次啓動不再需要格式化,只需 start-all.sh)

hadoop namenode -format

clip_image041[11] 

從上圖中知道我們已經成功格式化了,但是美中不足就是出現了一個警告,從網上得知這個警告並不影響hadoop執行,但是也有辦法解決,詳情看後面的"常見問題FAQ"。

(2)啓動hadoop

在啓動前關閉集羣中所有機器的防火牆,不然會出現datanode開後又自動關閉。使用下面命令啓動。

start-all.sh

clip_image043[11]

可以通過以下啓動日誌看出,首先啓動namenode 接着啓動datanode1,datanode2,…,然後啓動secondarynamenode。再啓動jobtracker,然後啓動tasktracker1,tasktracker2,…。

啓動 hadoop成功後,在 Master 中的 tmp 文件夾中生成了 dfs 文件夾,在Slave 中的 tmp 文件夾中均生成了 dfs 文件夾和 mapred 文件夾。

(3)驗證hadoop

(1)驗證方法一:用"jps"命令

在Master上用 java自帶的小工具jps查看進程。

clip_image044[11]

在Slave2上用jps查看進程。

clip_image045[12]

如果在查看Slave機器中發現"DataNode"和"TaskTracker"沒有起來時,先查看一下日誌的,如果是"namespaceID"不一致問題,採用"常見問題FAQ6.2"進行解決,如果是"No route to host"問題,採用"常見問題FAQ6.3"進行解決。

(2)驗證方式二:用"hadoop dfsadmin -report"

用這個命令可以查看Hadoop集羣的狀態。

clip_image046[11]

 

 

 

4.4 網頁查看集羣

(1)訪問"http://192.168.1.141:50030"

clip_image048[11]

(2)訪問"http://192.168.1.142:50070"

clip_image050[11]

5、常見問題FAQ

5.1 關於 Warning: $HADOOP_HOME is deprecated.

hadoop安裝完之後敲入hadoop命令時,是提示這個警告:

    Warning: $HADOOP_HOME is deprecated.

經查hadoop-1.1.2/bin/hadoop腳本和"hadoop-config.sh"腳本,發現腳本中對HADOOP_HOME的環境變量設置做了判斷,其實根本不需要設置HADOOP_HOME環境變量。

解決方案一:編輯"/etc/profile"文件,去掉HADOOP_HOME的變量設定,重新輸入hadoop fs命令,警告消失。

解決方案二:編輯"/etc/profile"文件,添加一個環境變量,之後警告消失:

    export HADOOP_HOME_WARN_SUPPRESS=1

5.2 解決"no datanode to stop"問題

當我停止Hadoop時發現如下信息:

    no datanode to stop

原因:每次namenode format會重新創建一個namenodeId,而tmp/dfs/data下包含了上次format下的id,namenode format清空了namenode下的數據,但是沒有清空datanode下的數據,導致啓動時失敗,有兩種解決方案:

第一種解決方案如下:

1)先刪除"/usr/hadoop/tmp"

rm -rf /usr/hadoop/tmp

2)創建"/usr/hadoop/tmp"文件夾

mkdir /usr/hadoop/tmp

3)刪除"/tmp"下以"hadoop"開頭文件

rm -rf /tmp/hadoop*

4)重新格式化hadoop

 

hadoop namenode -format

5)啓動hadoop

start-all.sh

使用第一種方案,有種不好處就是原來集羣上的重要數據全沒有了。假如說Hadoop集羣已經運行了一段時間。建議採用第二種。

第二種方案如下:

1)修改每個Slave的namespaceID使其與Master的namespaceID一致。

   或者

2)修改Master的namespaceID使其與Slave的namespaceID一致。

該"namespaceID"位於"/usr/hadoop/tmp/dfs/name/current/VERSION"文件中,前面藍色的可能根據實際情況變化,但後面紅色一般是不變的。

例如:查看"Master"下的"VERSION"文件

clip_image051[19]

本人建議採用第二種,這樣方便快捷,而且還能防止誤刪。

5.3 Slave服務器中datanode啓動後又自動關閉

查看日誌發下如下錯誤。

    ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Call to ... failed on local exception: java.net.NoRouteToHostException: No route to host

解決方案是:關閉防火牆

5.4 從本地往hdfs文件系統上傳文件

出現如下錯誤:

INFO hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException: Bad connect ack with firstBadLink

INFO hdfs.DFSClient: Abandoning block blk_-1300529705803292651_37023

WARN hdfs.DFSClient: DataStreamer Exception: java.io.IOException: Unable to create new block.

解決方案是:

1)關閉防火牆

2)禁用selinux

    編輯 "/etc/selinux/config"文件,設置"SELINUX=disabled"

5.5 安全模式導致的錯誤

出現如下錯誤:

org.apache.hadoop.dfs.SafeModeException: Cannot delete ..., Name node is in safe mode

在分佈式文件系統啓動的時候,開始的時候會有安全模式,當分佈式文件系統處於安全模式的情況下,文件系統中的內容不允許修改也不允許刪除,直到安全模式結束。安全模式主要是爲了系統啓動的時候檢查各個DataNode上數據塊的有效性,同時根據策略必要的複製或者刪除部分數據塊。運行期通過命令也可以進入安全模式。在實踐過程中,系統啓動的時候去修改和刪除文件也會有安全模式不允許修改的出錯提示,只需要等待一會兒即可。

解決方案是:關閉安全模式

hadoop dfsadmin -safemode leave

5.6 解決Exceeded MAX_FAILED_UNIQUE_FETCHES

出現錯誤如下:

Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out

程序裏面需要打開多個文件,進行分析,系統一般默認數量是1024,(用ulimit -a可以看到)對於正常使用是夠了,但是對於程序來講,就太少了。

解決方案是:修改2個文件。

1)"/etc/security/limits.conf"

    vi /etc/security/limits.conf

加上:

    soft nofile 102400

    hard nofile 409600

2)"/etc/pam.d/login"

    vim /etc/pam.d/login

添加:

    session required /lib/security/pam_limits.so

針對第一個問題我糾正下答案:

這是reduce預處理階段shuffle時獲取已完成的map的輸出失敗次數超過上限造成的,上限默認爲5。引起此問題的方式可能會有很多種,比如網絡連接不正常,連接超時,帶寬較差以及端口阻塞等。通常框架內網絡情況較好是不會出現此錯誤的。

5.7 解決"Too many fetch-failures"

出現這個問題主要是結點間的連通不夠全面。

解決方案是:

1)檢查"/etc/hosts"

要求本機ip 對應服務器名

要求要包含所有的服務器ip +服務器名

2)檢查".ssh/authorized_keys"

要求包含所有服務器(包括其自身)的public key

5.8 處理速度特別的慢

出現map,但是reduce,而且反覆出現"reduce=0%"。

解決方案如下:

結合解決方案5.7,然後修改"conf/hadoop-env.sh"中的"export HADOOP_HEAPSIZE=4000"

5.9 解決hadoop OutOfMemoryError問題

出現這種異常,明顯是jvm內存不夠得原因。

解決方案如下:要修改所有的datanode的jvm內存大小。

    Java –Xms 1024m -Xmx 4096m

一般jvm的最大內存使用應該爲總內存大小的一半,我們使用的8G內存,所以設置爲4096m,這一值可能依舊不是最優的值。



來源:http://www.cnblogs.com/lanxuezaipiao/p/3525554.html

發佈了2 篇原創文章 · 獲贊 5 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章