Hadoop機架感知

背景

最近在整理以前學過的大數據相關知識,今天從Hadoop的機架感知開始,Hadoop機架感知的實現有2種方式:
1)、通過實現一個Java接口DNSToSwitchMapping,然後在core-site.xml配置文件中配置net.topology.node.switch.mapping.impl,其值是實現DNSToSwitchMapping的類的全路徑,例如:

<property>
             <name>net.topology.node.switch.mapping.impl</name>
             <value>com.inspur.rackawar.test.MyDNSToSwitchMapping</value>
 </property>

2)、大多數安裝並不需要額外實現新的接口,只需要使用默認的ScriptBasedMapping實現即可,它運行用戶定義的腳本來描述映射關係。腳本的存放路徑通過core-site.xml文件中的配置項topology.script.file.name控制。只要不是非常複雜的業務,我個人推薦使用第二種方式,靈活簡單。
Hadoop的分佈式集羣通常包含非常多的服務器,由於受到機架槽位和交換機網口的限制,通常大型的分佈式集羣都會跨好幾個機架,由多個機架上的服務器共同組成一個分佈式集羣。機架內的服務器之間的網絡速度通常都會高於跨機架服務器之間的網絡速度,並且機架之間服務器的網絡通信通常受到上層交換機間網絡帶寬的限制。
具體到Hadoop集羣,由於hadoop的HDFS對數據文件的分佈式存放是按照分塊block存儲,每個block會有多個副本(默認爲3),並且爲了數據的安全和高效,所以hadoop默認對3個副本的存放策略爲:
第一個block副本放在和client所在的node裏(如果client不在集羣範圍內,則這第一個node是隨機選取的)。
第二個副本放置在與第一個節點不同的機架中的node中(隨機選擇)。
第三個副本放置在與第一個副本所在節點同一機架的另一個節點上。
如果還有更多的副本就隨機放在集羣的node裏。
這樣的策略可以保證對該block所屬文件的訪問能夠優先在本rack下找到,如果整個rack發生了異常,也可以在另外的rack上找到該block的副本。這樣足夠的高效,並且同時做到了數據的容錯。

但是,hadoop對機架的感知並非是自適應的,亦即,hadoop集羣分辨某臺slave機器是屬於哪個rack並非是智能感知的,而是需要hadoop的管理者人爲的告知hadoop哪臺機器屬於哪個rack,這樣在hadoop的namenode啓動初始化時,會將這些機器與rack的對應信息保存在內存中,用來作爲對接下來所有的HDFS的寫塊操作分配datanode列表時(比如3個block對應三臺datanode)的選擇datanode策略,做到hadoop allocate block的策略:儘量將三個副本分佈到不同的rack。
接下來的問題就是:通過什麼方式能夠告知hadoop namenode哪些slaves機器屬於哪個rack?以下是配置步驟。

配置

默認情況下,hadoop的機架感知是沒有被啓用的。所以,在通常情況下,hadoop集羣的HDFS在選機器的時候,是隨機選擇的,也就是說,很有可能在寫數據時,hadoop將第一塊數據block1寫到了rack1上,然後隨機的選擇下將block2寫入到了rack2下,此時兩個rack之間產生了數據傳輸的流量,再接下來,在隨機的情況下,又將block3重新又寫回了rack1,此時,兩個rack之間又產生了一次數據流量。在job處理的數據量非常的大,或者往hadoop推送的數據量非常大的時候,這種情況會造成rack之間的網絡流量成倍的上升,成爲性能的瓶頸,進而影響作業的性能以至於整個集羣的服務。
要將hadoop機架感知的功能啓用,配置非常簡單,在namenode所在機器的core-site.xml配置文件中配置一個選項:

<property>
            <name>topology.script.file.name</name>
            <value>/software/hadoop/etc/hadoop/topology.py</value>
</property

這個配置選項的value指定爲一個可執行程序,通常爲一個腳本,該腳本接受一個參數,輸出一個值。接受的參數通常爲某臺datanode機器的ip地址,而輸出的值通常爲該ip地址對應的datanode所在的rack,例如”/dc1/rack1”。Namenode啓動時,會判斷該配置選項是否爲空,如果非空,則表示已經用機架感知的配置,此時namenode會根據配置尋找該腳本,並在接收到每一個datanode的heartbeat時,將該datanode的ip地址作爲參數傳給該腳本運行,並將得到的輸出作爲該datanode所屬的機架,保存到內存的一個map中。
至於腳本的編寫,就需要將真實的網絡拓樸和機架信息瞭解清楚後,通過該腳本能夠將機器的ip地址正確的映射到相應的機架上去。一個簡單的實現如下:

#!/usr/bin/python
#coding=utf-8
import sys

rack={"192.168.137.201":"/dc1/rack1",
          "192.168.137.202":"/dc1/rack1",
          "192.168.137.203":"/dc1/rack2",
          "192.168.137.204":"/dc1/rack2",
          "s201":"/dc1/rack1",
          "s202":"/dc1/rack1",
         "s203":"/dc1/rack2",
         "s204":"/dc1/rack2"
        }

if __name__=="__main__":
   print rack.get(sys.argv[1],"/default-rack")

由於沒有找到確切的文檔說明 到底是主機名還是ip地址會被傳入到腳本,所以在腳本中最好兼容主機名和ip地址。

並且要賦予該python文件有執行的權限:chmod u+x topology.py
chmod g+x topology.py

重啓namenode,如果配置成功,namenode啓動日誌中會輸出:

2017-12-12 20:47:03,923 INFO org.apache.hadoop.net.NetworkTopology: Adding a new node: /dc1/rack1/192.168.137.201:50010
這個時候說明Hadoop的機架感知已被啓用。
查看HADOOP機架信息命令:

[hadoop@s200 hadoop]$ hdfs dfsadmin -printTopology
Rack: /dc1/rack1
   192.168.137.201:50010 (s201)
   192.168.137.202:50010 (s202)

Rack: /dc1/rack2
   192.168.137.203:50010 (s203)
   192.168.137.204:50010 (s204)

需要注意:
python腳本一定要在Linux服務器上創建,不然在windows創建之後上傳會出現意想不到的一些錯誤;

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章