[hadoop] hadoop的優缺點總結

hadoop有以下四個優點:
1)高可靠性:Hadoop底層維護多個數據副本,所以即使Hadoop某個計算元素或存儲出現故障,也不會導致數據的丟失。
2)高擴展性:能在廉價機器組成的集羣間分配任務數據,可方便的擴展數以幹計的節點。
3)高效性:在MapReduce的思想下,Hadoop是並行工作的,以加快任務處理速度。
4)高容錯性:能夠自動將失敗的任務重新分配。

同時hadoop 1.x有以下三個缺點:
1)不適合低延時數據訪問,比如毫秒級的存儲數據,是做不到的。
2)無法高效的對大量小文件進行存儲。
(1)存儲大量小文件的話,它會佔用NamelNode大量的內存來存儲文件目錄和塊信息。這樣是不可取的,因爲NameNode的內存總是有限的;
(2)小文件存儲的尋址時間會超過讀取時間,它違反了HDFS的設計目標。
3)不支持併發寫入、文件隨機修改。IHDFS
(1)一個文件只能有一個寫,不允許多個線程同時寫;
(2)僅支持數據append(追加),不支持文件的隨機修改。

在hadoop2.x的時候更新了新特性
小文件存檔
HDFS存檔文件或HAR文件,是一個更高效的文件存檔工具,它將文件存入HDFS塊,在減少NameNode內存使用的同時,允許對文件進行透明的訪問。具體說來,HDFS存檔文件對內還是一個一個獨立文件,對NameNode而言卻是一個整體,減少了NameNode的內存。
在這裏插入圖片描述
這個新特性在一定程度上解決了hdfs存儲小文件的問題,但是仍然不建議在hdfs中存儲大量小文件.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章