hadoop的hdfs读写文件流程

原創

阿拉祖

2020-06-19 09:30

一读取文件流程

打开分布式文件-调用分布式文件 DistributedFileSystem.open()方法
从Namenode获得Datanode地址-DistributedFileSystem 使用RPC调用Namenode,Namenode返回存有该副本的Datanode地址,DistributedFileSystem返回一个输入流FSDatainputstream对象,该对象封存了输入流DFSInputStream
连接到Datanode-调用输入流FSDatainputstream的read()方法,从而输入流DFSinputstream连接Datanodes
读取Datanode-反复调用read()方法,从而将数据从DataNode传入到客户端
读取另外的Datanode直到完成-到达块的末端时候,输入流DFSInputstream关闭与Datanode连接,寻找下一个Datanode
完成读取,关闭连接-调用输入流FSDataInputstream.close()

二写入文件流程
1.发送创建文件请求:调用分布式文件系统DistributedFileSystem.create()方法

2.Namenode中创建文件记录:分布式系统DistributedFileSystem发送RPC请求给namenode,namenode检察权限后创建一条记录,返回输出流FSDataOutputStream,封装了输出流DFSOutputStream

3.客户端写入:输出流DFSOutputStream将数据分成一个个的数据包,并写入内部队列,Datastreamer根据Datanode列表来要求namenode分配适合的新快来储存数据备份.一组Datanode构成管线(管线的Datanode之间使用socket流式通信)

4.使用管线传输数据:Datastreamer将数据包流式传输到管线第一个Datanode,第一个Datanode再传到第二个Datanode,知道完成.

5.确认队列,Datanode收到数据后发送确认,管线的Datanode的所有的确认组成一个确认的队列,所有的Datanode都确认,管线数据包删除.

6.关闭:客户端对数据调用close()方法,将剩余所有的数据写入Datanode管线,并联系Namenode且发送文件写入完成信息之前等待确认.

7.Namenode确认

8.故障处理:如过程中发生故障,则先关闭管线,把队列中的所有数据添加回去队列,确保数据包不漏,为另一个正常的Datanode当前数据块制定一个新的标识,并将该标识传送给Namenode,一遍故障Datanode再回复后删除上面的不完整数据块,从管线删除故障的Datanode并把余下的数据块写入余下的正常的Datanode.Namenode发现副本两不足时,会在另一个节点创建新的副本.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

hadoop的hdfs读写文件流程

.NET有哪些好用的定时任务调度框架

Python 将PDF转为PDF/A、PDF/X，以及PDF/A转回PDF

elk3

Kafka存储机制

aws语音呼叫调用，告警电话

深度学习框架火焰图pprof和CUDA Nsys配置指南

爬虫两种绕过5s盾的方法

【转】[C#] WebAPI 防止并发调用二（冥等性）

【转】[SQL Server]关掉 SSMS 的 IntelliSense

号称能打败MLP的KAN到底行不行？数学核心原理全面解析

mysql數據庫基礎知識和操作，筆記1，權亮

Jupyter Notebook更改Windows默認啓動目錄，儲存目錄

excel的數據收集與清洗，筆記2，權亮

hadoop的hdfs讀寫文件流程

excel 經典面試題,筆記7,權亮

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結