大數據概述和背景

1、什麼是大數據

最早提出在2002年,來源於美國的麥肯錫報告
4V特徵:
Volume(數據量大):PB級
Variety(數據多樣性):文本、圖像、視頻、音頻等
Velocity(輸入和處理速度快):流式數據
Value(價值密度低):需要積累很多的數據才能發掘大數據隱含的意義,只要能發揮和挖掘數據隱藏的價值,不用糾結於數據量大小
由維克托·麥爾-舍恩伯格提出,被稱作大數據之父

大數據核心問題:存儲、計算和分析。通過組件(計算框架)解決

2、數據倉庫和大數據

1、傳統方式:DW(Data Warehouse),基於傳統的關係數據庫(Oracle、Mysql等),一般只做查詢分析。TD(Teradata 天睿)數據倉庫一體機。

2、數據倉庫VS大數據
數據倉庫:Share Everything,存儲、計算、CPU共享 
大數據:Share Nothing,單獨計算、結果彙總

3、OLTP和OLAP

1、OLTP: Online Transaction Processing 聯機事物處理:(insert update delete)
   ACID: 所有的數據可追溯。-傳統關係型數據庫(Oracle Mysql Postgresql等)
2、OLAP: Online AnalyticProcessing 聯機分析處理

真正生產中是二者的結合:OLTP(後臺操作,前臺展示,數據設計等) + OLAP(Hive, Hbase, Spark等)

4、Google三篇論文

1、GFS: Google File System
主要是爲了解決Google搜索內容和存儲問題,造價低,易擴展。
倒排索引(Reverted Index)

2、MapReduce: 分佈計算模型。分而治之。
PageRank

3、BigTable:大表
把所有數據存入一張表中,通過犧牲空間,換取時間。

5、Hadoop的簡介

Hadoop是Apache軟件基金會的頂級開源項目,
是一套可靠的,可擴展的,支持分佈式計算的開源軟件,
是由原雅虎公司Doug Cutting根據Google發佈的學術論文
(Google File System、MapReduce、BigTable)而創建的開源項目。

在這裏插入圖片描述

6、HDFS的體系架構

HDFS是Hadoop體系中數據存儲管理的基礎。
它是一個高度容錯的系統,能檢 測和應對硬件故障,用於在低成本的通用硬件上運行。
HDFS簡化了文件的一 致性模型,通過流式數據訪問,適合帶有大型數據集的應用程序。

NameNode(主節點,名稱節點)
SencondayNameNode(備份節點)
DataNodes(數據節點)

在這裏插入圖片描述

7、MR編程模型

MapReduce是一種計算模型,用以進行大數據量的計算。
其中Map對數據集上的獨立元素進行指定的操作,生成鍵-值對形式中間結果。
Reduce則是對中間結果中相同“鍵”的所有“值”進行規約,以得到最終結果。
MapReduce這樣的功能劃分,非常適合在大量計算機組成的分佈式並行環境裏進行數據處理。

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章