Hadoop入門（2）HDFS的核心概念和工作原理

原創

2020-03-06 23:47

Hadoop之HDFS

目錄

一、簡述Hadoop的生態系統

二、分佈式文件系統

（一）HDFS優點和缺點

（二）HDFS的部分專業術語

（三）HDFS的部分核心組件

（四）HDFS的工作流程

1、如何分塊

2、如何備份

3、檢測數據（塊）損壞流程

4、檢測數據節點（DN）損壞流程

5、寫文件流程

6、讀文件流程

四、參考與推薦

一、簡述Hadoop的生態系統

Hadoop的核心是HDFS(分佈式存儲系統)+MapReduce（分佈式計算框架）

Flume（日誌收集，常用於推薦系統的數據收集）
Sqoop（數據轉移，用於兩個數據庫的數據轉移傳遞）
Storm（數據分析，即時計算，不同於hadoop的批量計算）
Ambari（簡化Hadoop複雜操作的工具）
Mapreduce（解決數據計算問題，比較笨重，過時啦）
YARN（資源管理調度系統，出現在Hadoop2.x）
Hive（"Hadoop的sql"，將sql語言翻譯成MapReduce程序）
Zookeeper（數據管理，約等於文件系統+通知機制）
Spark（數據清洗，簡化Mapreduce的上手難度）
HDFS（解決數據存儲問題）
Hbase（數倉建模，解決數據查詢問題）

二、分佈式文件系統

集羣：多個人在一起作同樣的事。
分佈式：多個人在一起作不同的事。
分佈式結構如下。

簡而言之，分佈式系統就是由多臺機器組成的大的機器集羣系統。而分佈式文件系統就是將一個大文件分成多個小文件並存儲，負責管理文件的系統。
分佈式文件系統在物理結構上是由計算機集羣中的多個節點構成的，這些節點分爲兩類，一類叫“主節點”(Master Node)或者也被稱爲“名稱結點”(NameNode)，另一類叫“從節點”（Slave Node）或者也被稱爲“數據節點”(DataNode)，正如字面意思一樣，主機負責與外界打交道，從機被主機管理。

三、HDFS

Hadoop的分佈式文件系統。

（一）HDFS優點和缺點

大存儲（分佈式）
比傳統機器讀寫快（併發讀寫，不受單臺機器的吞吐量和容量限制）
成本低，支持廉價硬件
容錯率高（因爲支持備份）
移動計算（把計算任務下發到數據所在的節點進行處理）
不適合小文件存儲。（生成的記錄信息浪費空間）。
適合用於處理批量數據，而不適合於隨機定位訪問（量大難查）。
不適合多次修改（滿足一致性原則）

（二）HDFS的部分專業術語

數據塊（Block)

當我們遇到一個大的數據時，HDFS會將它拆分成許多個小的數據塊（Block），以便分佈式存儲。

元數據（MateData)

記錄了這些數據塊分別在哪個數據節點存儲，順序按照距離遠近排序，越近越前。
描述數據的數據，這種信息一般稱爲“元數據”。

（三）HDFS的部分核心組件

名稱節點（簡稱NN，NameNode）

也稱主節點，作爲中心服務器，主要負責接受客戶端的讀寫請求。在主節點的統一調度下進行數據塊的創建、刪除和複製等操作，主節點的元數據信息會在啓動後加載到內存裏，以便快速查詢。
管理數據節點。
控制客戶端的訪問權限。
需要維護塊信息表和數據節點信息表。
NameNode有兩個重要文件，如下。

fsimage：元數據鏡像文件，保存文件系統的目錄樹。
edits：元數據操作日誌（針對目錄樹的修改操作），被寫入共享存儲系統中。

第二名稱節點(簡稱SNN，Secondary NameNode)

並不是主節點的備份文件，但是是備用主節點。
它主要爲了幫助主節點分擔壓力，類似主節點的“助手”。它的主要工作是在主節點忙時，幫助主節點合併edits ，減少NN啓動時間，合併流程如下圖。

數據節點（簡稱DN，DataNode）

主要爲了存儲數據塊。
必須向主節點彙報心跳、塊列表和其他確認信息ack。

（四）HDFS的工作流程

1、如何分塊

當我們遇到一個大的數據時，HDFS會將它拆分成許多個小的數據塊（Block），以便分佈式存儲。
數據塊容量太小不合適，尋址困難。
數據塊容量太大也不合適，容易產生外部碎片。
在Hadoop2.x，這個塊的大小默認是128MB，Hadoop1.x版本，默認大小是64MB。若文件大小不到128MB，則單獨存成一個塊。

2、如何備份

分好塊後，爲了保證容錯性（軟硬件出錯導致的數據丟失之類），HDFS需要對數據塊進行備份。Hadoop默認一個數據塊備份3個副本，分佈策略如下。
第一個副本：隨機挑選一臺磁盤不太滿，CPU不太忙的節點。
第二個副本：放置在於第一個副本不同的機架的節點上。
第三個副本：與第二個副本相同機架的節點。
更多副本：隨機節點

存儲過程正如下圖一般。 (右上角的是元數據表)

3、檢測數據（塊）損壞流程

數據節點會週期性向主節點彙報自己的塊列表信息。
彙報信息前，數據節點會通過驗證校驗碼去篩選是否存在數據塊的數據損失，如果發現數據塊數據有所損失，則不上報。
主節點通過對比自己的塊列表和數據節點上報的信息，知道數據塊的損壞情況，並更新自己的塊表。

4、檢測數據節點（DN）損壞流程

數據節點通過向主節點發送心跳保持與其聯繫（3秒一次）。
如果主節點10分鐘沒有收到數據節點的心跳，則認爲其已經意外丟失，主節點會開始複製他在其他數據節點上的備份數據塊，重新備份。

5、寫文件流程

數據通常以64kb被寫入（被稱爲數據包），所有數據包在被節點接受寫入後，都會返回一個確認信息給客戶端，如果客戶端沒收到確認信息，它就會重新調整管道。

6、讀文件流程

如果出現了因爲數據錯誤導致的讀錯誤，那麼客戶端會去列表中的其他備份節點讀數據。

四、參考與推薦

用漫畫形式解說HDFS的存儲原理
詳解HDFS
《Google file system》（暫未看），用於處理存儲的分佈式文件系統（GFS）
《Google MapReduce》（暫未看），用於計算的分佈式計算框架（MAPREDUCE）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

hadoop-2單節點和hive安裝

1、下載hadoop-x.y.x.tar.gz 2、解壓：tar -zxvf hadoop-2.y.x.tar.gz 3、配置環境變量：$JAVA_HOME、$HADOOP_HOME、$PATH 4、修改配置：$HADOOP_HOME/et

2024-05-24 23:51:33

DolphinScheduler 3.3.0版本更新一覽

Apache DolphinScheduler即將迎來3.3.0版本的發佈，屆時將有一系列重要的更新和改進。在近期的社區5月份用戶線上分享會上，項目PMC 阮文俊爲大家介紹了3.3.0版本將帶來的主要更新和改進，併爲大家指出瞭如何參與社區的

2024-05-23 21:22:09

CDH配置Kerberos和Sentry詳解

1.安全之Kerberos安全認證 1 Kerberos概述 1.1 什麼是Kerberos Kerberos是一種計算機網絡授權協議，用來在非安全網絡中，對個人通信以安全的手段進行身份認證。這個詞又指麻省理工學院爲這個協議開發的一套計算

2024-05-20 21:36:31

高效調度新篇章：詳解DolphinScheduler 3.2.0生產級集羣搭建

轉載自tuoluzhe8521 導讀：通過簡化複雜的任務依賴關係， DolphinScheduler爲數據工程師提供了強大的工作流程管理和調度能力。在3.2.0版本中，DolphinScheduler帶來了一系列新功能和改進，使其在生產環

2024-05-15 21:22:54

14 hive安裝

1.hive 1.1 解壓 tar -zxf apache-hive-1.2.2-bin.tar.gz -C .. mv apache-hive-1.2.2-bin/ hive-1.2.2 1.2 修改配置

2024-05-14 00:41:14

智能測試持續加碼，大模型引領軟件測試新生態

在軟件行業日新月異的今天，智能測試已成爲提升軟件質量的關鍵環節。大模型的崛起，更是爲軟件測試帶來了前所未有的變革。隨着AI和ML技術的突飛猛進，智能測試得到了快速發展，實現了對測試過程的自動化和智能化管理，顯著提高了測試效率和質量。如今，智

2024-05-25 02:07:17

圖表控件LightningChart JS v5.2正式發佈 - 全新的開發體驗

LightningChart JS是Web上性能特高的圖表庫，具有出色的執行性能 - 使用高數據速率同時監控數十個數據源。 GPU加速和WebGL渲染確保您的設備的圖形處理器得到有效利用，從而實現高刷新率和流暢的動畫，常用於貿易，工程，航空

2024-05-23 12:20:12

風控指南：國內車險欺詐呈現四大趨勢

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

安全分析：國內一些常見的汽車保險欺詐案件

2024年3月，北京警方打掉一個故意製造事故實施騙保的專業保險詐騙犯罪團伙。此案中，某保險公司在職員工與離職員工、定點汽修廠內外勾連，通過虛構、故意製造車輛事故或對事故擴損等手段騙取理賠款。不久前，遼寧警方也破獲一起自導自演僞造車禍騙保的案

2024-05-22 00:17:52

5月21日相聚上海張江！與文心大模型一起共建大模型產業應用生態圈

5月21日，文心中國行將走進上海，在張江科學會堂舉行。屆時，政府、企業與高校的相關專家和業界同仁將現場分享生成式人工智能與大模型最新進展，主要圍繞大模型技術如何賦能產業級應用創新展開探討，還有百度風投從投資視角帶來的觀點，讓參會者全方位瞭解

2024-05-17 00:28:21

白鯨開源CEO郭煒在2024 DataOps發展大會上獲聘專家

2024年5月15日，白鯨開源CEO郭煒在2024 DataOps發展大會上被正式聘任爲DataOps專家，並獲得了榮譽證書。本次大會由中國通信標準化協會主辦，中關村科學城管委會提供支持，大數據技術標準推進委員會（CCSATC601）承辦，

2024-05-16 11:28:50

2024數據標註公司20強排行榜（附榜單）

近日，德本諮詢發佈“2024數據標註公司排行”。數據標註行業作爲人工智能領域的重要組成部分，其需求正在不斷增長。近年來，數據標註行業發展迅速，規模實現了顯著增長。以2023年爲例，該行業的規模已經達到了60.8億元，同比增長了約19.69

2024-05-16 02:09:44

企業大模型如何成爲自己數據的“百科全書”？

作者 | 郭煒編輯 | Debra Chen 在當今的商業環境中，大數據的管理和應用已經成爲企業決策和運營的核心組成部分。然而，隨着數據量的爆炸性增長，如何有效利用這些數據成爲了一個普遍的挑戰。本文將探討大數據架構、大模型的集成，以及如

2024-05-15 21:22:50

多點 Dmall x TiDB：出海多雲多活架構下的 TiDB 運維實戰

作者：多點，唐萬民導讀時隔 2 年，在 TiDB 社區成都地區組織者馮光普老師的協助下，TiDB 社區線下地區活動再次來到成都。來自多點 Dmall 的國內數據庫負責人唐萬民老師，在《出海多雲架構，多點 TiDB 運維實戰》的主題分享

2024-05-15 10:48:37

神策數據付力力入選福布斯中國 30 Under 30 十週年名人堂

福布斯中國30 UNDER 30 持續關注青年才俊。在 U30 十週年之際，福布斯中國通過跟蹤、梳理、比較歷年Under 30們入選後的表現、社會影響力事件，以及創業精神詮釋，編制了福布斯中國U30名人堂名單。神策數據聯合創始人 & 技術

2024-05-14 21:51:58

24小時熱門文章

最新文章

最新評論文章