Java大數據之路--HDFS詳解（1）--概述

原創

2020-06-21 14:08

HDFS(分佈式文件存儲系統)--概述

目錄

HDFS(分佈式文件存儲系統)--概述

一、概述

全稱爲Hadoop Distributed File System ，Hadoop分佈式文件存儲系統
HDFS是根據谷歌的論文：《The Google File System》進行設計的
本身是一個分佈式的，可擴展，可靠的文件系統
HDFS中包含三個主要的進程：NameNode，DataNode，SecondaryNameNode。這三個進程一般是分佈式不同的主機上，所以一般習慣上是用進程的名字稱呼節點

二、特點

優點：

支持超大文件。超大文件在這裏指的是幾百M，幾百GB，甚至幾TB大小的文件。一般來說Hadoop的文件系統會存儲TB級別或者PB級別的數據。所以在企業的應用中，數據節點有可能有上千個
檢測和快速應對硬件故障。在集羣的環境中，硬件故障是常見的問題。因爲有上千臺服務器連接在一起，這樣會導致高故障率。因此故障檢測和自動恢復(心跳機制)是HDFS文件系統的一個設計目標
流式數據訪問。HDFS的數據處理規模比較大，應用一次需要訪問大量的數據，同時這些應用一般都是批量處理，而不是用戶交互式處理。應用程序能以流的形式訪問數據集。主要的是數據的吞吐量，而不是訪問速度
簡化的一致性模型。大部分hdfs操作文件時，需要一次寫入，多次讀取。在HDFS中，一個文件一旦經過創建、寫入、關閉後，一般就不需要修改了。這樣簡單的一致性模型，有利於提高吞吐量
高容錯性。數據自動保存多個副本，副本丟失後自動恢復
可構建在廉價機器上。構建在廉價機器上可以輕鬆的通過擴展機器數量來近乎線性的提高集羣存儲能力

缺點：

不能低延遲數據訪問。如和用戶進行交互的應用，需要數據在毫秒或秒的範圍內得到響應。由於Hadoop針對海量數據的吞吐量做了優化，犧牲了獲取數據的延遲，所以對於低延遲來說，不適合用hadoop來做
不適合存儲大量的小文件。HDFS支持超大的文件，是通過數據分佈在數據節點，數據的元數據保存在名字節點上。名字節點的內存大小，決定了HDFS文件系統可保存的文件數量。雖然現在的系統內存都比較大，但大量的小文件還是會影響名字節點的性能
不支持多用戶寫入、修改文件。HDFS的文件只能有一次寫入，不支持修改和追加寫入（2.0版本支持追加），也不支持修改。只有這樣數據的吞吐量才能大
不支持超強的事務。沒有像關係型數據庫那樣，對事務有強有力的支持，不會因爲一個塊的丟失影響全部數據，因爲數據量太大。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

cdh設置hdfs權限

通常會把 root 或者需要的用戶添加到 supergroup組，但Linux下默認是沒有supergroup組。 # Linux下默認是沒有supergroup組的 # hadoop:x:994:hdfs,mapred,yarn cat

2022-12-19 09:37:26

開源80萬行代碼，微衆銀行如何在小團隊規模下煉出一套一站式大數據平臺 | 卓越技術團隊訪談錄

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragr

2021-12-21 10:53:51

Uber容器化Apache Hadoop基礎設施的實踐

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Uber 技术团队

2021-11-19 09:03:49

基礎軟件創業 8 年，星環科技如何精準“踩點”？ | C位面對面

在大數據領域創業 12 年，眼見計算引擎經歷了數輪迭代，雲原生興起砸中了一批做容器的，數據雲因爲 Snowflake 上市走入大衆認知，回回都能在風口到來前兩三年做好佈局，這是一種什麼判斷和體驗？本期 C 位面對面，我們邀請到了星環科技創

InfoQ 中文站

2021-11-08 14:38:55

基礎軟件創業 8 年，如何精準“踩點”？｜ C位面對面

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-02 09:28:56

拋棄Hadoop，數據湖才能重獲新生

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockq

2021-10-28 14:23:59

Hadoop 生態裏，爲什麼 Hive 活下來了？

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

Einat Orr 博士

2021-10-08 19:08:56

成功從 Hadoop 遷移到 Lakehouse 架構的 5 個關鍵步驟

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-10-08 10:38:57

基於阿里雲部署的CDP產品詳情

雲與AI時代的到來，爲當下的數據存儲，數據分析帶來了一些顛覆性的變革，企業上雲已是大勢所趨。但企業採用雲服務可能會帶來數據管理方面的挑戰，因爲數據可能被存儲在孤島中，從而使企業難以在所有IT環境中發現、獲取、信任和兼容數據。此外，還存在被單

2021-08-18 15:43:52

伴魚數倉演進

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

伴鱼技术团队

2021-08-14 08:03:57

架構師（2021年7月）

卷首語：淺談架構現狀：設計越來越複雜，行業缺乏系統性思考採訪嘉賓 | 黃浩從之前單純的高流量到現在高流量、高併發，企業面對的業務場景越來越多，對系統的各項要求也越來越高，這意味着對系統架構的要求也越來越高。在過去很長的時間裏，集中式單

InfoQ 中文站

2021-07-08 08:03:58

從廣告監測到知識圖譜，明略千億大數據處理能力是如何煉成的？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-05-18 11:03:58

11天裏13個Apache開源項目宣佈退休，Hadoop的時代結束了

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-05-18 10:03:54

Hadoop 的“遺產”

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-05-08 09:58:53

大數據技術升級脈絡及認知陷阱 | InfoQ 大咖說

直播內容：多年來，大數據技術經歷了幾輪更迭，在計算、存儲、大規模落地等層面均取得了不錯的進展，並在不斷的成長和成熟，整個生態領域也得到了快速發展。目前，基於分析的大數據計算平臺在各大公司發揮着非常重要的基礎設施的作用。本期，網易數據科學

InfoQ 中文站

2021-04-26 10:43:51

24小時熱門文章

最新文章

最新評論文章