轉載:https://www.cnblogs.com/mengzj233/p/9759457.html
基礎準備
在基礎準備部分,主要是設置hadoop運行的系統環境
- 修改系統hostname(通過hostname和/etc/sysconfig/network進行修改)
- 修改hosts文件,將集羣所有節點hosts配置進去(集羣所有節點保持hosts文件統一)
- 設置NameNode(兩臺HA均需要)到DataNode的免密碼登錄(ssh-copy-id命令實現,可以免去cp
*.pub文件後的權限修改) - 修改主節點slave文件,添加新增節點的ip信息(集羣重啓時使用)
- 將hadoop的配置文件scp到新的節點上
添加DataNode
對於新添加的DataNode節點,需要啓動datanode進程,從而將其添加入集羣
- 在新增的節點上,運行hadoop-daemon.sh start datanode即可
- 然後在namenode通過hdfs dfsadmin -report查看集羣情況
- 最後還需要對hdfs負載設置均衡,因爲默認的數據傳輸帶寬比較低,可以設置爲64M,即hdfs dfsadmin
-setBalancerBandwidth 67108864即可 - 默認balancer的threshold爲10%,即各個節點與集羣總的存儲使用率相差不超過10%,我們可將其設置爲5%
- 然後啓動Balancer,sbin/start-balancer.sh -threshold 5,等待集羣自均衡完成即可
添加Nodemanager
由於Hadoop 2.X引入了YARN框架,所以對於每個計算節點都可以通過NodeManager進行管理,同理啓動NodeManager進程後,即可將其加入集羣
- 在新增節點,運行yarn-daemon.sh start nodemanager即可
- 在ResourceManager,通過yarn node -list查看集羣情況
另外更加詳細的參考博文:
https://blog.csdn.net/qq_38617531/article/details/82973043