什麼是HDFS

Hadoop DISTRIBUTED FILE SYSTEM，簡稱HDFS，是一個分佈式文件系統。它是谷歌的GFS提出之後出現的另外一種文件系統。它有一定高度的容錯性，而且提供了高吞吐量的數據訪問，非常適合大規模數據集上的應用。HDFS 提供了一個高度容錯性和高吞吐量的海量數據存儲解決方案。HDFS是Apache Hadoop Core項目的一部分。

HDFS特點

優點：高容錯性、適合批處理、適合大數據處理、流式文件訪問：一次寫入，多次讀取。

缺點：不適合低延遲數據訪問、不適合小文件存取（受限於NameNode）、不適合併發寫入。

HDFS概念：

Block：文件的存儲會被分割爲多個block進行存儲。默認爲128MB，每一個blok會在多個datanode上存儲多份副本，默認爲3份。

Namenode：是整個文件系統的管理節點,主要負責存儲一些metadata信息，主要包括文件目錄、block和文件對應關係，以及block和datanote的對應關係。

Datanode：負責存儲數據，提供真實文件數據的存儲服務。

secondry NameNode（hadoop1.0和2.0僞分佈式有，2.0完全分佈式沒有secondry namenode）HA的一個解決方案。

HDFS的基礎架構圖：

hadoop2.0之hdfs產生的背景

主要是在高可用和擴展性存在的問題

1.namenode單點故障，難以適用於在線場景；

2.namenode壓力過大，且內存受限，影響系統性能擴展；

解決方案
HDFS 2.x HA 高可用，主要用來解決單點故障，將備份過程交由第三方管理，企業一般使用QJM.

聯邦機制（federation）主要解決nomenode中內存受限，通過多個namenode/namespace把元數據的存儲和管理分散到多個節點中，使得namenode/namespace可以通過增加機器進行擴展。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

1.HDFS簡介

什麼是HDFS

HDFS特點

HDFS概念：

HDFS的基礎架構圖：

hadoop2.0之hdfs產生的背景

Android啓動過程-萬字長文(Android14)

【SQL進階】CASE語句的使用

這種嵌套字典類型的數據，我想把它讀取到df裏，如何操作？

微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺

iNeuOS工業互聯網操作系統，增加電力IEC104協議

微服務實踐k8s&dapr開發部署實驗（3）訂閱發佈

kbgressdb之數據結構V0.2

linux常用命令——4.網絡命令

linux常用命令——2.文件搜索命令

linux常用命令——5.系統管理命令

linux常用命令——6.vim的使用

3.hadoop之RPC通信簡單介紹

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結