Hadoop自学笔记

原創

零叶-福州

2018-08-26 03:08

互联网项目的不断实施扩展壮大，数据资源肯定是越来越丰富的。

大数据技术，我觉得在3-5年后会是一个常态技能。

要实施大数据技术，数据源是一个基石。

下面是自学Hadoop的一个总结：

Hadoop是一个开源的大数据框架

Hadoop是一个分布式计算的解决方案
Hadoop=HDFS分布式文件系统+MapReduce分布式计算解决方案
HDFS 分布式文件系统：存储是大数据技术的基础
MapReduce编程模型：分布式大数据应用的解决方案

HDFS
数据块数据块是抽象块而非整个文件作为存储单元
默认大小为64MB,一般设置为128M，备份X3
一个NameNode：主节点、备节点
管理文件系统的命名空间，存放文件元数据
维护着文件系统的所有文件和目录，文件与数据块的映射，
记录每个文件中各个块所在的数据节点的信息
多个DataNode：
存储并检索数据库，向NameNode更新所存储块的列表
写流程：
客户端向NameNode发起写请求，
数据分块写入DataNode节点，DataNode自动完成副本备份
DataNode向NameNode汇报存储完成，NameNode通知客户端
读流程：
客户端向NameNode发起读数据请求
NameNode找出距离最近的DataNode节点信息
客户端从DataNode分块下载文件

MapReduce
是一种编程模型，是一种编程方法的抽象理论
YARN概念 Hadoop2.0资源管理器
ResourceManager
分配和调度资源，启动并监控ApplicationMaster,监控NodeManager
ApplicationMaster
为MR类型的程序申请资源，并分配给内部任务，负责数据的切分，监控任务的执行及容错。
NodeManager
管理单个节点的资源，处理来自ResourceManager的命令，处理来自ApplicationMaster的命令。
MapReduce编程模型 - 分而治之
输入一个大文件，通过Split之后，将其分成多个分片
每个文件分片由单独的机器去处理，这就是Map的方法
将各个机器的计算的结果进行汇总并得到最终的结果，这就是Reduce方法。

HBase
分布式数据库
利用HDFS作为其文件存储系统，支持MapReduce程序读取数据
存储非结构化和半结构化的数据当然也支持结构化数据
RowKey:数据唯一标识，主键，按字典排序
Cloumn Family:列族，多个列的集合，最多不用超过3个
TimeStamp时间戳：支持多版本数据同时存在

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Hadoop自学笔记

再谈23种设计模式（3）：行为型模式（学习笔记）

Power Automate Desktop 安装完，登录后老是提示one driver 错误

微前端学习笔记(4):从微前端到微模块之EMP与hel-micro方案探索

微前端学习笔记（1）：微前端总体架构概述，从微服务发微

985 硕士程序员，空窗 4 个月没有 Offer！

一文搞懂 Spring 循环依赖

赛博斗地主——使用大语言模型扮演Agent智能体玩牌类游戏。

VScode右键打开(添加到右键)

记一次 .NET某工控视觉自动化系统卡死分析

WindowsServer--SQL Server搭建主从同步实现读写分离 - 事务性分发

常用js限制輸入、常用js正則表達式

session-緩存-分佈式會話session共享、多節點部署session共享解決方案

使用@Conditional 給Bean的實例化加開關

springBoot+jsonp的實現方式

Jedis-緩存操作具體實現代碼。

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結