Hadoop的data.dir配置导致balancer无法平衡各节点

hdfs的data.dir配置如下:
<property>
<name>dfs.data.dir</name>
<value>/diska/data/hadoop/data1,/diska/data/hadoop/data2</value>
</property>


后来在web界面的live nodes中看到,怎么hadoop配置的可用空间比实际的空间要多一倍,所以推测,hadoop不会检测是否相同的盘,只单独计算data.dir配置的每个目录的总容量,简单相加。

因为要运行balancer,但发现log显示信息都正确,也表明要copy block到比较均衡的机器,但实际上却没有发生block的拷贝。

把data.dir修改正确后,balancer能正确均衡集群了。

bin/start-balancer.sh默认的一个判断是否均衡的阀值是10%,也就是说,各个节点间使用率的偏差不超过10%。

PS: hadoop中第dfs.replication设置第数量如果跟机器数一样,则也不能balance,因为这时每台机都已经有一个拷贝,就不会在复制。

从balancer的后台输出中看到,移动block时总是from ... to ... through ...,也就是说,会以一台中间节点来转移数据,但这只是表面看到的情况,实际情况是,through的这台节点,其实是包含要移动block的一个copy,并且是已经balanced的节点。这样的话,移动block就不必真的从非balanced的节点移动,减轻了要移动block的节点第压力。
发布了62 篇原创文章 · 获赞 1 · 访问量 7325
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章