【知識積累】大數據旅程-Hadoop之HDFS簡介

原創

2020-06-20 01:00

1、HDFS原理：

一個節點登記，其他節點存數據，其他節點存完數據向登記節點回報。

2、存儲模型（字節）：

文件線性切割成塊（Block：偏移量、位置信息）
偏移量 offset（byte）

offset：塊的第一個字節面向原文件的下標
第一個字節下標是0
如果一個塊是四個字節，那麼第一個塊是0、1、2、3，第二個塊的偏移量是4

Block分散存儲在集羣節點中
單一文件Block大小一致，文件與文件可以不一致

定義四個字節一個塊，存儲時就是四個字節，如果最後只剩下兩個字節，那麼就是一個塊存兩個字節
第一個文件可以是四個字節一個塊，第二個直接可以是8個字節

Block可以設置副本數（一個文件切了兩個塊，也就是兩個節點A1和B1，如果A1掛掉，那麼文件不再完整，則需要A*作爲副本，提高可靠性），副本分散在不同節點中

副本數不要超過節點數量
塊是平級的，如果有三個副本，則這個塊需要三個節點存儲。

文件上傳可以設置Block大小和副本數
已上傳的文件Block副本數可以調整，大小不變
只支持一次寫入多次讀取，同一時刻只有一個寫入者
可以append追加數據

3、架構模型：

文件元數據MetaData，文件數據

元數據
數據本身

（主）NameNode節點（進程維護了虛擬目錄樹來映射存儲關係）保存文件元數據：單節點 posix
（從）DataNode節點（保存小文件）保存文件Block數據：多節點
DataNode與NameNode保持心跳，提交Block列表
HdfsClient與NameNode交互元數據信息
HdfsClient與DataNode交互文件Block數據

4、HDFS設計思想

HDFS 1.*版本的Block默認大小是64M，2.*Block版本的默認大小是128M。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Hadoop Installation - Pseudodistributed Mode

Hadoop Installation - Pseudodistributed Mode 目錄 Hadoop Installation - Pseudodistributed Mode 目錄準備條件安裝配置配置 ss

2020-07-08 06:35:36

ES特定場景性能優化

1. Overview 本文主要介紹一下Elasticsearch（後文簡稱ES）做相關基準測試的流程，及分享一些我們做過的一些測試結論。簡要說明下我們使用情況：寬表的用戶畫像OLAP分析場景，集羣規模200節點，數據量30T

2020-07-07 18:10:00

Scala_(2)_面向對象

1.類 class HiScala{ private var name="Spark" def sayName(){...} def getName = name } 創建實例：new HiScala 暴露get 方法

2020-07-07 15:16:54

Scala_(1)_基礎

1.函數 sum(1 to 100:_*)// 提取出1-100中的所有元素,並實現sum操作 2.lazy 只有在初次運行時調用如：lazy val content = fromFile(path) 3.集合 val a

2020-07-07 15:16:54

HBase基礎使用篇01

HBase 高併發處理方案簡圖一、概述官網地址: http://hbase.apache.org/ HBase是一種構建在HDFS之上的分佈式、面向列的存儲系統。在需要實時讀寫、隨機訪問超大規模數據集時，可以使用HBase。

沙滩上的漫步者

2020-07-06 15:48:54

Spark 源碼分析（六）: Executor 向 driver 進行註冊

前一篇文章介紹了 Executor 進程的啓動，最後啓動的是 CoarseGrainedExecutorBackend，執行啓動命令後會執行它的 main 方法，啓動 CoarseGrainedExecutorBackend 進程

2020-07-06 10:37:09

SparkSQL 性能調優參數

1，spark.hadoopRDD.ignoreEmptySplits 默認是false，如果是true，則會忽略那些空的splits，減小task的數量。 2，spark.hadoop.mapreduce.input.filei

2020-07-06 10:36:59

Flume+Hbase--採集和儲存日誌數據

前言大數據時代，誰掌握了足夠的數據，誰就有可能掌握未來，而其中的數據採集就是將來的流動資產積累。幾乎任何規模企業，每時每刻也都在產生大量的數據，但這些數據如何歸集、提煉始終是一個困擾。而大數據技術的意義確實不在於掌握規模龐大的

2020-07-05 10:57:53

HBase權限控制

修改 hbase-site.xml 文件 <property> <name>hbase.superuser</name> <value>hbase</value> </property> <property> <nam

2020-07-05 02:34:49

NodeManager啓動失敗--防火牆篇

Hadoop環境CDH4.4 今天年後第一天上班（實習中），還過一個月，實習第一份實習合同就到期了~ Hadoop集羣的虛擬環境看上去太亂，所以就將3個節點（1master + 2Slaves）重啓，結果NodeManager啓動失敗。查

2020-07-04 16:49:38

Hadoop啓動datanode/namenode失敗或者無法啓動

文章目錄問題描述問題產生原因解決方法注：看有沒有重要數據吧，但是一般頻發格式化namenode時，應該也知道自己沒啥重要數據，採取簡單粗暴的方法吧問題描述當我使用./hdfs namenode -format 多次對文件系統進

渐宽阁读书小弟

2020-07-03 08:41:16

Yarn-Session集羣啓動失敗：Unauthorized request to start container

文章目錄問題報錯出錯點：Unauthorized request to start container解決方法：問題報錯 2020-03-31 18:29:28,992 ERROR org.apache.flink.yarn.c

渐宽阁读书小弟

2020-07-03 08:41:16

大數據組件資源包（百度雲盤分享，永久有效）

文章目錄目前打包資源：資源鏈接：hadoop分佈式集羣安裝詳見：目前打包資源： CentOS-6.5-x86_64-minimal.iso flink-1.7.2-bin-hadoop26-scala_2.11.tgz fli

渐宽阁读书小弟

2020-07-03 08:41:16

Centos虛擬機網絡配置（爲安裝大數據組件做準備）

文章目錄修改網絡當前ip信息：ifconfig -a查看虛擬機的網關：修改ifcfg-eth0：vi /etc/sysconfig/network-scripts/ifcfg-eth0重啓網絡服務： service network

渐宽阁读书小弟

2020-07-03 08:41:16

超級詳細超級簡單助你搭建hadoop分佈式集羣

文章目錄資源鏈接安裝Centos6.5:（超詳細）Centos6.5虛擬機網絡配置及克隆2臺服務器（超詳細）安裝java安裝配置hadoop格式化namenode(第一次安裝)啓動hadoop：資源鏈接點擊進入資源下載鏈接，很

渐宽阁读书小弟

2020-07-03 08:41:16

24小時熱門文章

最新文章

最新評論文章