大数据基础：Hadoop2.x生态系统（一）

原創

2020-02-22 01:24

一、基础概念 & 适用场景

1、分布式文件系统（HDFS）

HDFS是Hadoop分布式文件系统，HDFS有如下技术特点和应用场景：

适合处理超大文件，数量级达到GB、TB甚至PB级
支持集群规模的动态扩展
适用于流式数据读写的场景，即“一次写入，多次读取”
具有高容错性，数据块可以保存多个副本，实现负载均衡
对硬件要求低，能够运行在廉价的商用机器集群

不适用于如下场景：

不适合需要高效存储大、量小的场景
不适合低延迟的数据访问场景
不适合多用户同时写和任意修改该文件场景

2、分布式计算框架（MapReduce）

MapReduce是一个分布式并行编程模型，将计算任务分布在成百上千个节点组成的集群进行并行计算，并返回计算结果。

MapReduce计算模型有如下优点和使用场景：

具有高度可扩展性，可动态增加/削减计算节点
具有高容错能力，支持任务自动迁移、重试和预测执行，不受单点故障影响
能实现灵活的资源分配和调度，达到资源利用的最大化
可部署在几千台机器的超大规模集群尚，使MapReduce可以处理具有超大规模数据的业务场景
MapReduce模型使用方便，易于编程，简化了分布式程序设计，提高了开发效率且支持多开发语言

不适合使用MapReduce计算模型的场景：

MapReduce计算的时延较高，对实时性要求较高的场景不合适使用
MapReduce适合顺序批量处理数据，处理随机访问的能力不足，因此需要处理随机数据的场景也不适用MapReduce

3、分布式集群管理系统（Zookeeper）

Zookeeper是一个针对大型分布式系统的可靠协调系统。在大数据系统中，Zookeeper为Hadoop生态系统中各组件提供功能支撑。
Zookeeper主要有如下常见应用场景：

为分布式应用系统提供同一的配置管理信息
为分布式应用系统提供同一的命名服务
提供基于简单原语的分布式同步操作
集群管理

4、数据仓库工具（Hive）

Hive是基于Hadoop平台的数据仓库工具。适用于如下场景：

海量数据的离线分析
结构化数据的处理

5、分布式数据库（HBase）

HBase是基于HDFSd的面向列的分布式数据库系统，HBase具有高可靠性、高性能、列存储、可伸缩、实时读写的特点。

HBase适用于如下场景：

存储和查询半结构化和非结构化的数据
存储和查询记录稀疏的数据
存储和查询超大数据量的数据
业务场景简单，不需要全部关系数据库特性的场景

发布了172 篇原创文章 · 获赞 29 · 访问量 20万+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

redhat+hadoop+mahout环境搭建

淘了一臺二手Dell C1100玩： CPU: L5639*2 MEM: 4GB*18 HDD: SATA 1G 簡單記錄一下部署過程： 1. 爲了給OpenStack打好基礎，選擇安裝rhel 6.4 下載完[紅帽企業Linux.6.

2020-07-03 08:41:47

Hive SQL中不同数据类型比较时隐性转换的坑

1. 不同數據類型比較先來看一段SQL。表dean_test中字段a的類型是整型INT，字段b的類型是字符串/字符型STRING/VARCHAR。 select * from dean_test where a = b 這就是

2020-06-29 14:53:12

MongoDB简介与基本查询操作命令

MongoDB是一個非關係型的數據庫，以鍵值對的形式儲存，其中鍵值對可以嵌套下去。因此相對傳統的關係型數據庫來說，MongoDB更加的靈活，當然缺點就是由於非結構化的形式導致解析的時候相對複雜。另外，MongoDB已經支持了很多開源的生態

2020-06-29 00:15:56

如何从大量的 URL 中找出相同的 URL？

題目描述給定 a、b 兩個文件，各存放 50 億個 URL，每個 URL 各佔 64B，內存限制是 4G。請找出 a、b 兩個文件共同的 URL。解答思路每個 URL 佔 64B，5,000,000,00

2020-06-27 04:23:34

HBase性能深度分析

http://www.programmer.com.cn/7246/ 文/劉星 HBase作爲BigTable的一個開源實現，隨着其應用的普及，用戶對它的性能數據愈發關注。本文將爲您揭開HBase性能測試的一角，邀您一起參與到對雲計算模

2020-06-25 10:27:56

Big Data: 20 Free Big Data Sources Everyone Should Know

Big Data: 20 Free Big Data Sources Everyone Should Know 轉自：http://smartdatacollective.com/bernardmarr/235366/big-d

2020-06-24 04:33:01

AWS EMR Vs HDInsight Vs Aliyun Cloud E-MapReduce之架构篇

AWS EMR Vs HDInsight Vs Aliyun Cloud E-MapReduce之架構篇從大數據的架構上，我們可以看出AWS EMR和Aliyun Cloud E-MapReduce蠻像的，HDInsight則有

大数据爱好者

2020-06-23 19:34:52

SQL中基于代价的优化

還記得筆者在上篇文章無意中挖的一個坑麼？如若不知，強烈建議看官先行閱讀前面兩文－《SparkSQL Join原理》和《Join中竟然也有謂詞下推?》第一篇文章主要分析了大數據領域Join的三種基礎算法以及各自的適用場景，第二篇文

2020-06-22 05:55:02

hadoop1.0 和hadoop2.0 任务处理架构比较

來源：http://younglibin.iteye.com/blog/1921385 剛剛看到一篇文章對 hadoop1 和 hadoop 2 做了一個解釋圖片不錯拿來看看 Hadoop 1.0

2020-06-22 04:06:40

大数据学习笔记——使用Solr建立HBASE索引

最近工作需要接觸HBase存儲數據，並對數據進行加工分析處理。在此將個人學習過程及踩過的坑記錄一下，防止個人大腦遺忘，希望在緩解個人腦容量不足的情況下，也能給他人提供幫助。環境：阿里雲Hbase企業版流程： Hbase表的創

海上的程序猿

2020-06-22 00:37:35

大数据学习笔记——Kafka理论知识

Kafka基礎組件 Topics（主題）屬於特定類別的消息流稱爲主題。數據存儲在主題中。主題被拆分成分區。對於每個主題，Kafka保存一個分區的迷你媽媽。每個這樣的分區包含不可變有序序列的消息。分區被實現爲具有相等大小的

海上的程序猿

2020-06-22 00:37:35

机器学习之LARNN（Linear Attention Recurrent Neural Network）

Linear Attention Recurrent Neural Network（LARNN）由Guillaume Chevalier結合前人的經驗於2018年八月發表的論文《LARNN: Linear Attention R

海上的程序猿

2020-06-21 23:52:44

Dremel: Interactive Analysis of Web-Scale Datasets 1～6节算法思想部分翻译

摘要： Dremel是一個具有可擴展性和交互性，專用於分析只讀嵌套數據的查詢系統。它本身對多級操作數和柱狀數據佈局的融合使它得以在秒級的反應時間內對有萬億數量級行記錄的表進行集成語句查詢。這個系統在谷歌包含數以千計的CPU和PT級的數據量

2020-06-21 16:21:21

Linux下搭建Dask分布式集群

1. 提前安裝好python依賴包，否則之後有可能出現各種各樣的錯誤，反覆的編譯python。 # yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sq

2020-06-16 15:01:13

Hadoop(CDH)之Hue、Hive操作

文章目錄Scheduler定時器創建數據表Sql化操作界面化操作 cdh全稱爲Cloudera’s Distribution Including Apache Hadoop Scheduler定時器看圖說話然後點擊保

2020-06-16 12:48:02

24小時熱門文章

最新文章

最新評論文章