大数据概述和背景

1、什么是大数据

最早提出在2002年,来源于美国的麦肯锡报告
4V特征:
Volume(数据量大):PB级
Variety(数据多样性):文本、图像、视频、音频等
Velocity(输入和处理速度快):流式数据
Value(价值密度低):需要积累很多的数据才能发掘大数据隐含的意义,只要能发挥和挖掘数据隐藏的价值,不用纠结于数据量大小
由维克托·麦尔-舍恩伯格提出,被称作大数据之父

大数据核心问题:存储、计算和分析。通过组件(计算框架)解决

2、数据仓库和大数据

1、传统方式:DW(Data Warehouse),基于传统的关系数据库(Oracle、Mysql等),一般只做查询分析。TD(Teradata 天睿)数据仓库一体机。

2、数据仓库VS大数据
数据仓库:Share Everything,存储、计算、CPU共享 
大数据:Share Nothing,单独计算、结果汇总

3、OLTP和OLAP

1、OLTP: Online Transaction Processing 联机事物处理:(insert update delete)
   ACID: 所有的数据可追溯。-传统关系型数据库(Oracle Mysql Postgresql等)
2、OLAP: Online AnalyticProcessing 联机分析处理

真正生产中是二者的结合:OLTP(后台操作,前台展示,数据设计等) + OLAP(Hive, Hbase, Spark等)

4、Google三篇论文

1、GFS: Google File System
主要是为了解决Google搜索内容和存储问题,造价低,易扩展。
倒排索引(Reverted Index)

2、MapReduce: 分布计算模型。分而治之。
PageRank

3、BigTable:大表
把所有数据存入一张表中,通过牺牲空间,换取时间。

5、Hadoop的简介

Hadoop是Apache软件基金会的顶级开源项目,
是一套可靠的,可扩展的,支持分布式计算的开源软件,
是由原雅虎公司Doug Cutting根据Google发布的学术论文
(Google File System、MapReduce、BigTable)而创建的开源项目。

在这里插入图片描述

6、HDFS的体系架构

HDFS是Hadoop体系中数据存储管理的基础。
它是一个高度容错的系统,能检 测和应对硬件故障,用于在低成本的通用硬件上运行。
HDFS简化了文件的一 致性模型,通过流式数据访问,适合带有大型数据集的应用程序。

NameNode(主节点,名称节点)
SencondayNameNode(备份节点)
DataNodes(数据节点)

在这里插入图片描述

7、MR编程模型

MapReduce是一种计算模型,用以进行大数据量的计算。
其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。
Reduce则是对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。
MapReduce这样的功能划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。

在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章