1.HDFS簡介

什麼是HDFS

Hadoop DISTRIBUTED FILE SYSTEM,簡稱HDFS,是一個分佈式文件系統。它是谷歌的GFS提出之後出現的另外一種文件系統。它有一定高度的容錯性,而且提供了高吞吐 量的數據訪問,非常適合大規模數據集上的應用。HDFS 提供了一個高度容錯性和高吞吐量的海量數據存儲解決方案。HDFS是Apache Hadoop Core項目的一部分。

HDFS特點

優點:高容錯性、適合批處理、適合大數據處理、流式文件訪問:一次寫入,多次讀取。

缺點:不適合低延遲數據訪問、不適合小文件存取(受限於NameNode)、不適合併發寫入。

HDFS概念:

Block:文件的存儲會被分割爲多個block進行存儲。默認爲128MB,每一個blok會在多個datanode上存儲多份副本,默認爲3份。

Namenode:是整個文件系統的管理節點,主要負責存儲一些metadata信息,主要包括文件目錄、block和文件對應關係,以及block和datanote的對應關係。

Datanode:負責存儲數據,提供真實文件數據的存儲服務。

secondry NameNode(hadoop1.0和2.0僞分佈式有,2.0完全分佈式沒有secondry namenode)HA的一個解決方案。

HDFS的基礎架構圖:


hadoop2.0之hdfs產生的背景

主要是在高可用和擴展性存在的問題

1.namenode單點故障,難以適用於在線場景;

2.namenode壓力過大,且內存受限,影響系統性能擴展;

解決方案
HDFS 2.x HA 高可用,主要用來解決單點故障,將備份過程交由第三方管理,企業一般使用QJM.

聯邦機制(federation)主要解決nomenode中內存受限,通過多個namenode/namespace把元數據的存儲和管理分散到多個節點中,使得namenode/namespace可以通過增加機器進行擴展。




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章