hadoop 2.3 集羣總結

原創

大齐zy

2020-02-21 17:01

用了近兩個禮拜的摸索終於搭建好了hadoop集羣，測試性能也符合預期。

centos6.4下hadoop2.3集羣總結如下：

關於環境的設置：

1.關閉selinux （反覆折騰了好多次）

vi /etc/selinux/config

SELINUX=disabled

2.關閉防火牆

service iptables status
service ip6tables status
service iptables stop
service ip6tables stop
chkconfig iptables off
chkconfig ip6tables off

3.對ssh打開免密碼登陸設置

vi /etc/ssh/sshd_config

RSAAuthentication yes
PubkeyAuthentication yes
AuthorizedKeysFile      .ssh/authorized_keys

4.設置jdk環境變量

export JAVA_HOME=/usr/local/jdk1.7.0_51
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin

update-alternatives --install /usr/bin/java java /usr/local/jdk1.7.0_51/bin/java 60
update-alternatives --config java

關於經常遇到的問題:

etc/hadoop/hdfs-site.xml 文件中dfs.replication每個節點都需要保持一致

針對小規模的集羣設置爲1其實就可以了執行效率還提高了，沒必要是用2份或者3份，反而影響性能

namenode 最好與datanode分開

因爲它是起到管理節點的作用，頭節點效率低了，直接影響整個hadoop運行速度以及穩定性

hadoop2.3 對默認的機器硬件要求爲4核和8g

所以在機器性能沒有問題的情況下，最好使用默認值，強制使用2核或者1核反而達不到預期效果

hadoop 中針對集羣方式，其實所有節點配置都是一樣的，增加或減少節點只需要對etc/hadoop/slaves進行配置就可以了。其他的事情hadoop自己來做。

hadoop常用命令如下：

./bin/hdfs dfsadmin -report

./bin/hadoop namenode -format

./bin/hdfs dfs -mkdir -p /export/home/hadoop  

./bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.3.0.jar randomwriter /export/home/hadoop/input

./sbin/start-dfs.sh &&  ./sbin/start-yarn.sh 

./sbin/stop-yarn.sh && ./sbin/stop-dfs.sh

./bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.3.0.jar randomwriter /export/home/hadoop/input1

執行結果有原來的僞分佈式的43分鐘

使用集羣方式後三個slave，每個slave 4核8，使用1個副本執行結果爲4.5分鐘。

針對自己搭建的集羣使用vmware workstation 就足夠了，沒有必要使用exsi 或者其他虛擬化軟件，上手時間還快。

站內首發文章

大齊zy

發佈了116 篇原創文章 · 獲贊 53 · 訪問量 53萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

hadoop 2.3 集羣總結

Wireshark 安裝+使用（一）

ElasticSearch大批量數據入庫

初識lucene

centos 6.5 hadoop 2.3 初配置

iostat 離線安裝

hadoop 2.3 集羣總結

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結