【知识积累】大数据旅程-Hadoop之HDFS简介

原創

2020-06-20 01:00

1、HDFS原理：

一个节点登记，其他节点存数据，其他节点存完数据向登记节点回报。

2、存储模型（字节）：

文件线性切割成块（Block：偏移量、位置信息）
偏移量 offset（byte）

offset：块的第一个字节面向原文件的下标
第一个字节下标是0
如果一个块是四个字节，那么第一个块是0、1、2、3，第二个块的偏移量是4

Block分散存储在集群节点中
单一文件Block大小一致，文件与文件可以不一致

定义四个字节一个块，存储时就是四个字节，如果最后只剩下两个字节，那么就是一个块存两个字节
第一个文件可以是四个字节一个块，第二个直接可以是8个字节

Block可以设置副本数（一个文件切了两个块，也就是两个节点A1和B1，如果A1挂掉，那么文件不再完整，则需要A*作为副本，提高可靠性），副本分散在不同节点中

副本数不要超过节点数量
块是平级的，如果有三个副本，则这个块需要三个节点存储。

文件上传可以设置Block大小和副本数
已上传的文件Block副本数可以调整，大小不变
只支持一次写入多次读取，同一时刻只有一个写入者
可以append追加数据

3、架构模型：

文件元数据MetaData，文件数据

元数据
数据本身

（主）NameNode节点（进程维护了虚拟目录树来映射存储关系）保存文件元数据：单节点 posix
（从）DataNode节点（保存小文件）保存文件Block数据：多节点
DataNode与NameNode保持心跳，提交Block列表
HdfsClient与NameNode交互元数据信息
HdfsClient与DataNode交互文件Block数据

4、HDFS设计思想

HDFS 1.*版本的Block默认大小是64M，2.*Block版本的默认大小是128M。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Hadoop Installation - Pseudodistributed Mode

Hadoop Installation - Pseudodistributed Mode 目錄 Hadoop Installation - Pseudodistributed Mode 目錄準備條件安裝配置配置 ss

2020-07-08 06:35:36

ES特定场景性能优化

1. Overview 本文主要介紹一下Elasticsearch（後文簡稱ES）做相關基準測試的流程，及分享一些我們做過的一些測試結論。簡要說明下我們使用情況：寬表的用戶畫像OLAP分析場景，集羣規模200節點，數據量30T

2020-07-07 18:10:00

Scala_(2)_面向对象

1.類 class HiScala{ private var name="Spark" def sayName(){...} def getName = name } 創建實例：new HiScala 暴露get 方法

2020-07-07 15:16:54

Scala_(1)_基础

1.函數 sum(1 to 100:_*)// 提取出1-100中的所有元素,並實現sum操作 2.lazy 只有在初次運行時調用如：lazy val content = fromFile(path) 3.集合 val a

2020-07-07 15:16:54

HBase基础使用篇01

HBase 高併發處理方案簡圖一、概述官網地址: http://hbase.apache.org/ HBase是一種構建在HDFS之上的分佈式、面向列的存儲系統。在需要實時讀寫、隨機訪問超大規模數據集時，可以使用HBase。

沙滩上的漫步者

2020-07-06 15:48:54

Spark 源码分析（六）: Executor 向 driver 进行注册

前一篇文章介紹了 Executor 進程的啓動，最後啓動的是 CoarseGrainedExecutorBackend，執行啓動命令後會執行它的 main 方法，啓動 CoarseGrainedExecutorBackend 進程

2020-07-06 10:37:09

SparkSQL 性能调优参数

1，spark.hadoopRDD.ignoreEmptySplits 默認是false，如果是true，則會忽略那些空的splits，減小task的數量。 2，spark.hadoop.mapreduce.input.filei

2020-07-06 10:36:59

Flume+Hbase--采集和储存日志数据

前言大數據時代，誰掌握了足夠的數據，誰就有可能掌握未來，而其中的數據採集就是將來的流動資產積累。幾乎任何規模企業，每時每刻也都在產生大量的數據，但這些數據如何歸集、提煉始終是一個困擾。而大數據技術的意義確實不在於掌握規模龐大的

2020-07-05 10:57:53

HBase权限控制

修改 hbase-site.xml 文件 <property> <name>hbase.superuser</name> <value>hbase</value> </property> <property> <nam

2020-07-05 02:34:49

NodeManager启动失败--防火墙篇

Hadoop環境CDH4.4 今天年後第一天上班（實習中），還過一個月，實習第一份實習合同就到期了~ Hadoop集羣的虛擬環境看上去太亂，所以就將3個節點（1master + 2Slaves）重啓，結果NodeManager啓動失敗。查

2020-07-04 16:49:38

Hadoop启动datanode/namenode失败或者无法启动

文章目錄問題描述問題產生原因解決方法注：看有沒有重要數據吧，但是一般頻發格式化namenode時，應該也知道自己沒啥重要數據，採取簡單粗暴的方法吧問題描述當我使用./hdfs namenode -format 多次對文件系統進

渐宽阁读书小弟

2020-07-03 08:41:16

Yarn-Session集群启动失败：Unauthorized request to start container

文章目錄問題報錯出錯點：Unauthorized request to start container解決方法：問題報錯 2020-03-31 18:29:28,992 ERROR org.apache.flink.yarn.c

渐宽阁读书小弟

2020-07-03 08:41:16

大数据组件资源包（百度云盘分享，永久有效）

文章目錄目前打包資源：資源鏈接：hadoop分佈式集羣安裝詳見：目前打包資源： CentOS-6.5-x86_64-minimal.iso flink-1.7.2-bin-hadoop26-scala_2.11.tgz fli

渐宽阁读书小弟

2020-07-03 08:41:16

Centos虚拟机网络配置（为安装大数据组件做准备）

文章目錄修改網絡當前ip信息：ifconfig -a查看虛擬機的網關：修改ifcfg-eth0：vi /etc/sysconfig/network-scripts/ifcfg-eth0重啓網絡服務： service network

渐宽阁读书小弟

2020-07-03 08:41:16

超级详细超级简单助你搭建hadoop分布式集群

文章目錄資源鏈接安裝Centos6.5:（超詳細）Centos6.5虛擬機網絡配置及克隆2臺服務器（超詳細）安裝java安裝配置hadoop格式化namenode(第一次安裝)啓動hadoop：資源鏈接點擊進入資源下載鏈接，很

渐宽阁读书小弟

2020-07-03 08:41:16

24小時熱門文章

最新文章

最新評論文章