HDFS讀取文件步驟

原創

大彪_

2020-06-19 16:20

client調用FileSystem.open(),該FileSystem指向的實例是DistrbutedFileSystem（DFS），它通過RPC請求到Namenode.
Namenode收到請求後，對於每一個塊返回存有該副本的Datanode地址。並且依照“網絡拓撲”來排序。（就近原則）
DFS獲取到BlockLocations後，可以根據當前讀取偏移量計算指定DataNode並進行通訊，返回一個FSDataInputStream,該對象管理DataNode和NameNode的I/O，客戶端反覆調用stream.read()方法獲取數據 (這步包含了權威指南的3，4步驟)。
到達塊的末端時，stream關閉與當前交互的DataNode的連接，繼續尋找下一個最佳的DataNode再執行步驟3操作。
client從stream讀取數據時，塊是按照打開stream和DataNode的順序讀取的，~~它也會詢問NameNode來檢索下一批數據塊DataNode的位置~~。(《權威指南第三版》76頁倒數第4行描述有誤，事實上一次性獲取了完整的BlockLocations) 一旦client讀取完成，就對stream執行close操作

上述流程是在正常讀取，並且沒有發生故障的理想情況下。

補充：

在讀取數據時，如果stream和DataNode通訊時發現錯誤，會嘗試從這個塊的找最鄰近的DataNode讀取數據，它也會記住那個故障節點,以保證以後不會反覆讀取該節點上的塊.

DFSInputStream會通過校驗和確認從DataNode獲取到的數據是否完整，如果發現有損壞的塊，就會在DFSInputStream試圖從其他DataNode讀取其副本之前通知NameNode.

總結：

這個設計的重點是，NameNode告知客戶端每個塊中最佳的DataNode,並讓客戶端直接連接到該DataNode檢索數據。由於數據流分散在集羣中的所有DataNode,所以這種設計能使HDFS可擴展到大量的併發客戶端。同時，NameNode只需要響應塊位置的請求（這些信息存儲在內存中，所以非常高效），無須響應數據請求，否則隨着客戶端數量的增長，NameNode會很快成爲瓶頸。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

HDFS讀取文件步驟

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

公衆號5月C#/.NET熱文一覽

git 下載大陸鏡像地址

Spring Aop 日誌攔截應用

eclipse 遠程調試hadoop代碼

Linux負載均衡集羣之LVS原理

HDFS讀取文件步驟

iptables 簡單配置示例

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結