Hadoop_HDFS的概念及優缺點

1.Hadoop是什麼?

      Hadoop是一個開源的大數據框架

      Hadoop是一個分佈式計算的解決方案

      Hadoop = HDFS(分佈式文件系統) + MapReduce(分佈式計算)

      HDFS用於解決大數據的存儲問題

      MapReduce用於解決分佈式計算

2.HDFS的概念及優缺點

      HDFS有三個重要的概念數據塊、NameNode、DataNode

      數據塊:HDFS在存儲數據的時候是以塊爲單位進行存儲的,而非是整個文件進行存儲,比如有一個2G的文件,HDFS會將該文件切分成若干塊(數據塊)分開進行存儲,而不是直接將這個2G的文件進行存儲。

           數據塊的默認大小是64M,一般設置爲128M,默認情況下,每個數據塊備份3分。

3.NameNode 與 DataNode

      HDFS由一個NameNode和多個DataNode組成。

      NameNode:管理文件系統的命名空間,存放文件的元數據;

               維護文件系統的所有文件和目錄,文件與數據塊的映射;

               記錄每個文件中各個塊所在數據節點的信息。

      DataNode:存儲並檢索數據塊;

               向NameNode更新所存儲塊的列表。

      注:爲了保證系統的高可用性,系統中除了當前使用的NameNode節點之外,還有一臺備用的NameNode節點,兩臺NameNode節點的數據始終保持一致,一旦當前使用的NameNode節點掛掉,備用的NameNode節點會立即代替工作。

4.HDFS 的優缺點

      優點:適合大文件存儲,支持TB、PB級的數據存儲,並且有副本策略;

                 可以構建在廉價的機器上,並且有一定的恢復和容錯機制;

                 支持流式數據訪問,一次寫入,多次讀取最爲高效。

      缺點:不適合大量小文件存儲(文件的大小小於數據塊的大小,也會佔據一個數據塊)

                 不適合併發寫入,不支持文件隨機修改

                 不支持隨機讀等低延時的訪問方式。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章