Hadoop总结一:基础知识-Namenode,Datanode(非HA高可用性配置)

Namenode主要功能:接受客户端的读写服务
Namenode保存metadata信息(元数据)
  --文件ownership和permissions
  --文件包含哪些快
  --Block保存在哪个DataNode上(Datanode启动时上报)

Namenode的metadata信息在启动后会加载到内存
  --metadata存储到磁盘文件名为‘fsimage’
  --Block的位置信息不会保存到fsimage---这个信息保存在内存中
  --edits记录对metadata的操作日志

SecondaryNamenode
他不是NN的备份,但是可以作为备份,它的主要工作是帮助NN合并edits文件,减少NN启动时间
SNN执行合并的时机
  --根据配置文件设置的时间间隔fs.checkpoint.period默认3600秒
  --根据配置文件设置edits log大小,fs.checkpoint.size规定edits文件的最大默认是64MB

 
Datanode
  --存储数据(Block)
  --启动DN线程时向NN回报block信息
  --主动向NN发送心跳保持与其联系(3秒一次),如果NN没有收到DN的心跳,则认为其已经lost,copy其上的block到其他DN

Block的副本放置策略:
  --第一个副本:放置在上传文件的DN,如果是集群外提交,则随机挑选一台磁盘不太满,cpu不太忙的节点(最好在同一个节点)
  --第二个副本:放置在第一个副本不同的机架的节点上
  --第三个副本:与第二个副本相同机架的节点
  --更多副本:随机节点
PS:配置文件中需要把每一台服务器的节点编号写在配置文件中


HDFS读流程:

客户端(client)用FileSystem的open()函数打开文件

DistributedFileSystem用RPC调用元数据节点,得到文件的数据块信息。

对于每一个数据块,元数据节点返回保存数据块的数据节点的地址。

DistributedFileSystem返回FSDataInputStream给客户端,用来读取数据。

客户端调用stream的read()函数开始读取数据。

DFSInputStream连接保存此文件第一个数据块的最近的数据节点。

Data从数据节点读到客户端(client)

当此数据块读取完毕时,DFSInputStream关闭和此数据节点的连接,然后连接此文件下一个数据块的最近的数据节点。

当客户端读取完毕数据的时候,调用FSDataInputStream的close函数。

在读取数据的过程中,如果客户端在与数据节点通信出现错误,则尝试连接包含此数据块的下一个数据节点。

失败的数据节点将被记录,以后不再连接。



HDFS写流程:

客户端调用create()来创建文件

DistributedFileSystem用RPC调用元数据节点,在文件系统的命名空间中创建一个新的文件。

元数据节点首先确定文件原来不存在,并且客户端有创建文件的权限,然后创建新文件。

DistributedFileSystem返回DFSOutputStream,客户端用于写数据。

客户端开始写入数据,DFSOutputStream将数据分成块,写入data queue。

Data queue由Data Streamer读取,并通知元数据节点分配数据节点,用来存储数据块(每块默认复制3块)。分配的数据节点放在一个pipeline里。

Data Streamer将数据块写入pipeline中的第一个数据节点。第一个数据节点将数据块发送给第二个数据节点。第二个数据节点将数据发送给第三个数据节点。

DFSOutputStream为发出去的数据块保存了ack queue,等待pipeline中的数据节点告知数据已经写入成功。

如果数据节点在写入的过程中失败:

关闭pipeline,将ack queue中的数据块放入data queue的开始。

当前的数据块在已经写入的数据节点中被元数据节点赋予新的标示,则错误节点重启后能够察觉其数据块是过时的,会被删除。

失败的数据节点从pipeline中移除,另外的数据块则写入pipeline中的另外两个数据节点。

元数据节点则被通知此数据块是复制块数不足,将来会再创建第三份备份。

当客户端结束写入数据,则调用stream的close函数。此操作将所有的数据块写入pipeline中的数据节点,并等待ack queue返回成功。最后通知元数据节点写入完毕。


HDFS安全模式

  --当集群启动的时候,会首先进入到安全模式。安全模式是hadoop集群的一种保护方式。当系统处于安全模式时,会检查数据块的完整性。假设我们设置的副本数(即参数dfs.replication)是5,那么在dataNode上就应该有5个副本存在,假设只存在3个副本,那么比率就是3/5=0.6。在配置文件hdfs-default.xml中定义了一个最小的副本率0.999。

我们的副本率0.6明显小于0.999,因此系统会自动的复制副本到其他dataNode,使得副本率不小于0.999。如果系统中有8个副本,超过我们设定的5个副本,那么系统也会删除多于的3个副本。

总体来说,安全模式是hadoop的一种保护机制,用于保证集群中数据块的安全性的。

在命令行下是可以控制安全模式的进入、退出和查看的,

命令hadoop  fs  –safemode  get 查看安全模式状态

命令hadoop  fs  –safemode  enter 进入安全模式状态

命令hadoop  fs  –safemode  leave 离开安全模式状态


发布了10 篇原创文章 · 获赞 0 · 访问量 4万+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章