模塊一：Hadoop核心框架（五）----HDFS之重要概念

原創

没有眉毛的阿斗叶

2020-07-07 02:00

HDFS簡介

HDFS （全稱：Hadoop Distribute File System，Hadoop 分佈式文件系統）是 Hadoop 核心組成，是分佈式存儲服務。
分佈式文件系統橫跨多臺計算機，在大數據時代有着廣泛的應用前景，它們爲存儲和處理超大規模數據提供所需的擴展能力。
HDFS是分佈式文件系統中的一種

HDFS的重要概念

典型的Master/Slave架構：
HDFS 的架構是典型的 Master/Slave 結構。
HDFS集羣往往是一個NameNode（HA架構會有兩個NameNode,聯邦機制）+多個DataNode組成；
NameNode是集羣的主節點，DataNode是集羣的從節點。
分塊存儲（block機制）
HDFS 中的文件在物理上是分塊存儲（block）的，塊的大小可以通過配置參數來規定；
Hadoop2.x版本中默認的block大小是128M；
命名空間（NameSpace）
HDFS 支持傳統的層次型文件組織結構。用戶或者應用程序可以創建目錄，然後將文件保存在這些目錄裏。文件系統名字空間的層次結構和大多數現有的文件系統類似：用戶可以創建、刪除、移動或重命名文件。
Namenode 負責維護文件系統的名字空間，任何對文件系統名字空間或屬性的修改都將被Namenode 記錄下來。
HDFS提供給客戶單一個抽象目錄樹，訪問形式：hdfs://namenode的hostname:port/test/input;例如：hdfs://linux121:9000/test/input
NameNode元數據管理
我們把目錄結構及文件分塊位置信息叫做元數據。
NameNode的元數據記錄每一個文件所對應的block信息（block的id,以及所在的DataNode節點的信息）
DataNode數據存儲
文件的各個 block 的具體存儲管理由 DataNode 節點承擔。一個block會有多個DataNode來存儲，DataNode會定時向NameNode來彙報自己持有的block信息。
副本機制
爲了容錯，文件的所有 block 都會有副本。每個文件的 block 大小和副本系數都是可配置的。應用程序可以指定某個文件的副本數目。副本系數可以在文件創建的時候指定，也可以在之後改變。副本數量默認是3個。
一次寫入，多次讀出
HDFS 是設計成適應一次寫入，多次讀出的場景，且不支持文件的隨機修改。（支持追加寫入，不只支持隨機更新）
正因爲如此，HDFS 適合用來做大數據分析的底層存儲服務，並不適合用來做網盤等應用（修改不方便，延遲大，網絡開銷大，成本太高）

HDFS架構

NameNode(nn):HDFS集羣管理者，Master
- 維護管理HDFS的名稱空間（NameSpace）
- 維護副本策略
- 記錄文件Block的映射信息
- 負責處理客戶端讀寫請求
DataNode:NameNode下達命令，DataNode執行實際操作，Slave節點。
- 保存實際的數據塊
- 負責數據塊的讀寫
Client:客戶端
- 上傳文件到HDFS的時候，Client負責將文件切分成Block,然後進行上傳
- 請求NameNode交互，獲取文件的位置信息
- 讀取或寫入文件，與DataNode交互
- Client可以使用一些命令來管理HDFS或者訪問HDFS

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

入職3年-我如何做一名AI產品經理

引言從2021年校招加入京東開始，我一直從事AI產品經理的工作，有幸見證了AI行業的熱情從一臺臺服務器燒到了全世界各個角落，也見證了京東AI中臺團隊的影響力如何一步步的擴大。從21年的迷茫到24年的堅定，很慶幸我正走在適合自己的道路上，

2024-04-22 11:16:31

從零開始學架構V2-初識架構設計-1

一、架構設計的主要目的爲了解決軟件系統複雜度帶來的問題二、複雜性來源軟件的架構設計是一個非常複雜的過程；基於業務&技術現狀、公司成本、團隊規模、團隊技術能力、近三年業務發展規模預測、技術發展趨勢等條件篩選出合適的技術、編寫多種架構設計

2024-04-25 23:56:25

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署環境中構建無服務器數據倉庫

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方

2024-04-25 21:18:23

2024 開源數據工程生態系統全景圖

點擊藍字關注我們作者 | ALIREZA SADEGHI翻譯 | Debra Chen 01 簡介

2024-04-23 21:30:36

告別手動調度，海豚調度器 3.1.x 集羣部署讓你輕鬆管理多機！

轉載自第一片心意 1 前言由於海豚調度器官網的集羣部署文檔寫的較亂，安裝過程中需要跳轉到很多地方進行操作，所以自己總結了一篇可以直接跟着從頭到尾進行操作的文檔，以方便後續的部署、升級、新增節點、減少節點的相關操作。 2. 提前準備 2.

2024-04-23 21:18:20

大數據小白的測試成長之路

引言 22年校招入職京東後，我一直在數據中臺測試部從事測試開發的工作。畢業後，寫的最多的文檔是測試計劃和測試報告，鮮有機會就自己的成長碼字進行回顧和總結。借“up技術人”欄目，也終於是在工作之餘回頭望，對自己這近兩年時光進行一個小總結

2024-04-28 11:17:19

如何從0到1設計診斷系統

引言在整車電子電氣體系中，診斷系統的設計扮演着至關重要的角色，負責支持整車的刷寫、故障排查和EOL(End of Line)等關鍵操作。這一重要性在於這些操作的實現都依賴於診斷系統的全面支持。因此，在設計診斷系統時，必須確保

2024-04-26 22:43:26

華爲雲Stack8.3面向香港正式發佈，六大亮點激發雲上躍遷

本文分享自華爲雲社區《華爲雲Stack8.3面向香港正式發佈，六大亮點激發雲上躍遷》，作者：華爲雲頭條。 2024年4月23日，在華爲雲香港峯會2024上，華爲混合雲副總裁胡玉海面向香港市場發佈華爲雲Stack8.3，提供110+本地

2024-04-26 10:33:21

對接HiveMetaStore，擁抱開源大數據

本文分享自華爲雲社區《對接HiveMetaStore，擁抱開源大數據》，作者：睡覺是大事。 1. 前言適用版本：9.1.0及以上在大數據融合分析時代，面對海量的數據以及各種複雜的查詢，性能是我們使用一款數據處理引擎最重要的考量

2024-04-24 22:33:08

重磅新品發佈！雲耀數據庫HRDS，享受輕量級的極致體驗

本文分享自華爲雲社區《重磅新品發佈！雲耀數據庫HRDS，享受輕量級的極致體驗！》，作者：GaussDB 數據庫。所謂，凡有井水處，即能歌柳詞。大數據時代，凡有數據處，必有數據庫。隨着業務需求的不斷擴大和數據量的激增，數

2024-04-23 22:32:33

沙特2030年願景和對中國IT企業的市場機會分析

沙特2030年願景和對中國IT企業的市場機會分析前言：最近“開源老DJ，帶你去沙特”欄目第一期已經播出，收到了不錯的反響。見COPU官網的回顧。（https://mp.weixin.qq.com/s/3B0jNVhybxTF1xPiy

2024-04-23 22:24:54

03-爲啥大模型LLM還沒能完全替代你？

1 不具備記憶能力的它是零狀態的，我們平常在使用一些大模型產品，尤其在使用他們的API的時候，我們會發現那你和它對話，尤其是多輪對話的時候，經過一些輪次後，這些記憶就消失了，因爲它也記不住那麼多。 2 上下文窗口的限制大模型對其inpu

2024-04-23 01:07:00

01-大語言模型發展

AI大模型的相關的一些基礎知識，一些背景和基礎知識。多模型強應用AI 2.0時代應用開發者的機會。 0 大綱 AI產業的拆解和常見名詞應用級開發者，在目前這樣一個大背景下的一個職業上面的一些機會實戰部分的，做這個agent，即所謂智

2024-04-22 01:12:50

WhaleScheduler爲銀行業全信創環境打造統一調度管理平臺解決方案

項目背景數字金融是數字經濟的重要支撐和驅動力。近年來，我國針對數字金融的發展政策頻頻出臺，《金融科技發展規劃（2022-2025年）》、《“十四五”數字經濟發展規劃》、《關於銀行業保險業數字化轉型的指導意見》、《金融標準化“十四五”

2024-04-19 21:18:25

用戶行爲分析模型實踐（四）—— 留存分析模型

作者：vivo 互聯網大數據團隊- Wu Yonggang、Li Xiong 本文是vivo互聯網大數據團隊《用戶行爲分析模型實踐》系列文章第4篇 -留存分析模型。本文詳細介紹了留存分析模型的概念及基本原理，並

2024-04-19 11:26:00

24小時熱門文章

最新文章

最新評論文章