1、什么是大数据

最早提出在2002年，来源于美国的麦肯锡报告
4V特征：
Volume(数据量大)：PB级
Variety(数据多样性)：文本、图像、视频、音频等
Velocity(输入和处理速度快)：流式数据
Value(价值密度低)：需要积累很多的数据才能发掘大数据隐含的意义，只要能发挥和挖掘数据隐藏的价值，不用纠结于数据量大小
由维克托·麦尔-舍恩伯格提出，被称作大数据之父

大数据核心问题：存储、计算和分析。通过组件（计算框架）解决

2、数据仓库和大数据

1、传统方式：DW(Data Warehouse)，基于传统的关系数据库(Oracle、Mysql等)，一般只做查询分析。TD(Teradata 天睿)数据仓库一体机。

2、数据仓库VS大数据
数据仓库：Share Everything，存储、计算、CPU共享 
大数据：Share Nothing，单独计算、结果汇总

3、OLTP和OLAP

1、OLTP: Online Transaction Processing 联机事物处理：(insert update delete)
   ACID: 所有的数据可追溯。-传统关系型数据库(Oracle Mysql Postgresql等)
2、OLAP: Online AnalyticProcessing 联机分析处理

真正生产中是二者的结合：OLTP(后台操作，前台展示，数据设计等) + OLAP(Hive, Hbase, Spark等)

4、Google三篇论文

1、GFS: Google File System
主要是为了解决Google搜索内容和存储问题，造价低，易扩展。
倒排索引(Reverted Index)

2、MapReduce: 分布计算模型。分而治之。
PageRank

3、BigTable：大表
把所有数据存入一张表中，通过牺牲空间，换取时间。

5、Hadoop的简介

Hadoop是Apache软件基金会的顶级开源项目，
是一套可靠的，可扩展的，支持分布式计算的开源软件，
是由原雅虎公司Doug Cutting根据Google发布的学术论文
(Google File System、MapReduce、BigTable)而创建的开源项目。

6、HDFS的体系架构

HDFS是Hadoop体系中数据存储管理的基础。
它是一个高度容错的系统，能检 测和应对硬件故障，用于在低成本的通用硬件上运行。
HDFS简化了文件的一 致性模型，通过流式数据访问，适合带有大型数据集的应用程序。

NameNode(主节点，名称节点)
SencondayNameNode(备份节点)
DataNodes(数据节点)

7、MR编程模型

MapReduce是一种计算模型，用以进行大数据量的计算。
其中Map对数据集上的独立元素进行指定的操作，生成键-值对形式中间结果。
Reduce则是对中间结果中相同“键”的所有“值”进行规约，以得到最终结果。
MapReduce这样的功能划分，非常适合在大量计算机组成的分布式并行环境里进行数据处理。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

大数据概述和背景

1、什么是大数据

2、数据仓库和大数据

3、OLTP和OLAP

4、Google三篇论文

5、Hadoop的简介

6、HDFS的体系架构

7、MR编程模型

钉钉打卡速度慢

Nginx R31 doc 官方文档-01-nginx 如何安装

Qt/C++音视频开发74-合并标签图形/生成yolo运算结果图形/文字和图形合并成一个/水印滤镜

挑战程序设计竞赛 2.2章习题 POJ - 3617 Best Cow Line 贪心

字节面试：MySQL什么时候锁表？如何防止锁表？

.NET8连接SQL SERVER 2008 R2 报：证书链是由不受信任的颁发机构颁发的

golang开发环境搭建(win10)

python计算机视觉学习笔记——PIL库的用法

Golang初学：获取程序内存使用情况，std runtime

Hadoop簡介與安裝

activiti表說明

同時運行多個Tomcat

流程開發-Activiti

Java整數類型取值範圍計算

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結