hdfs體系架構及讀寫流程

HDFS體系架構

HDFS是一個主/從（Master/Slave）體系架構，由於分佈式存儲的性質，集羣擁有兩
類節點NameNode 和DataNode。
NameNode（名字節點）：系統中通常只有一個，中心服務器的角色，管理存儲和檢索
多個 DataNode 的實際數據所需的所有元數據。
DataNode（數據節點）：系統中通常有多個，是文件系統中真正存儲數據的地方，在
NameNode 統一調度下進行數據塊的創建、刪除和複製

HDFS讀寫流程

讀

客戶端向NameNode發送讀取請求
NameNode返回文件的所有block和這些block所在的DataNodes（包括複製節點）
客戶端直接從DataNode中讀取數據，如果該DataNode讀取失敗（DataNode失效或校驗碼不對），則從複製節點中讀取（如果讀取的數據就在本機，則直接讀取，否則通過網絡讀取）

寫

1.客戶端將文件寫入本地磁盤的HDFS Client文件中

2.當臨時文件大小達到一個block大小時，HDFS client通知NameNode，申請寫入文件

3.NameNode在HDFS的文件系統中創建一個文件，並把該block id和要寫入的DataNode的列表返回給客戶端

4.客戶端收到這些信息後，將臨時文件寫入DataNodes

4.1 客戶端將文件內容寫入第一個DataNode（一般以4kb爲單位進行傳輸）
4.2 第一個DataNode接收後，將數據寫入本地磁盤，同時也傳輸給第二個DataNode
4.3 依此類推到最後一個DataNode，數據在DataNode之間是通過pipeline的方式進行復制的
4.4 後面的DataNode接收完數據後，都會發送一個確認給前一個DataNode，最終第一個DataNode返回確認給客戶端
4.5 當客戶端接收到整個block的確認後，會向NameNode發送一個最終的確認信息
4.6 如果寫入某個DataNode失敗，數據會繼續寫入其他的DataNode。然後NameNode會找另外一個好的DataNode繼續複製，以保證冗餘性
4.7 每個block都會有一個校驗碼，並存放到獨立的文件中，以便讀的時候來驗證其完整性

5.文件寫完後（客戶端關閉），NameNode提交文件（這時文件纔可見，如果提交前，NameNode垮掉，那文件也就丟失了。fsync：只保證數據的信息寫到NameNode上，但並不保證數據已經被寫到DataNode中）

Rack aware（機架感知）

通過配置文件指定機架名和DNS的對應關係

假設複製參數是3，在寫入文件時，會在本地的機架保存一份數據，然後在另外一個機架內保存兩份數據（同機架內的傳輸速度快，從而提高性能）

整個HDFS的集羣，最好是負載平衡的，這樣才能儘量利用集羣的優勢

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

hdfs體系架構及讀寫流程

HDFS體系架構

HDFS讀寫流程

讀

寫

格式化字符串及print函數

hdfs體系架構及讀寫流程

作業8-12

hbase理論總結

markdown使用及python基本信息

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結