1、什麼是大數據

最早提出在2002年，來源於美國的麥肯錫報告
4V特徵：
Volume(數據量大)：PB級
Variety(數據多樣性)：文本、圖像、視頻、音頻等
Velocity(輸入和處理速度快)：流式數據
Value(價值密度低)：需要積累很多的數據才能發掘大數據隱含的意義，只要能發揮和挖掘數據隱藏的價值，不用糾結於數據量大小
由維克托·麥爾-舍恩伯格提出，被稱作大數據之父

大數據核心問題：存儲、計算和分析。通過組件（計算框架）解決

2、數據倉庫和大數據

1、傳統方式：DW(Data Warehouse)，基於傳統的關係數據庫(Oracle、Mysql等)，一般只做查詢分析。TD(Teradata 天睿)數據倉庫一體機。

2、數據倉庫VS大數據
數據倉庫：Share Everything，存儲、計算、CPU共享 
大數據：Share Nothing，單獨計算、結果彙總

3、OLTP和OLAP

1、OLTP: Online Transaction Processing 聯機事物處理：(insert update delete)
   ACID: 所有的數據可追溯。-傳統關係型數據庫(Oracle Mysql Postgresql等)
2、OLAP: Online AnalyticProcessing 聯機分析處理

真正生產中是二者的結合：OLTP(後臺操作，前臺展示，數據設計等) + OLAP(Hive, Hbase, Spark等)

4、Google三篇論文

1、GFS: Google File System
主要是爲了解決Google搜索內容和存儲問題，造價低，易擴展。
倒排索引(Reverted Index)

2、MapReduce: 分佈計算模型。分而治之。
PageRank

3、BigTable：大表
把所有數據存入一張表中，通過犧牲空間，換取時間。

5、Hadoop的簡介

Hadoop是Apache軟件基金會的頂級開源項目，
是一套可靠的，可擴展的，支持分佈式計算的開源軟件，
是由原雅虎公司Doug Cutting根據Google發佈的學術論文
(Google File System、MapReduce、BigTable)而創建的開源項目。

6、HDFS的體系架構

HDFS是Hadoop體系中數據存儲管理的基礎。
它是一個高度容錯的系統，能檢 測和應對硬件故障，用於在低成本的通用硬件上運行。
HDFS簡化了文件的一 致性模型，通過流式數據訪問，適合帶有大型數據集的應用程序。

NameNode(主節點，名稱節點)
SencondayNameNode(備份節點)
DataNodes(數據節點)

7、MR編程模型

MapReduce是一種計算模型，用以進行大數據量的計算。
其中Map對數據集上的獨立元素進行指定的操作，生成鍵-值對形式中間結果。
Reduce則是對中間結果中相同“鍵”的所有“值”進行規約，以得到最終結果。
MapReduce這樣的功能劃分，非常適合在大量計算機組成的分佈式並行環境裏進行數據處理。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

大數據概述和背景

1、什麼是大數據

2、數據倉庫和大數據

3、OLTP和OLAP

4、Google三篇論文

5、Hadoop的簡介

6、HDFS的體系架構

7、MR編程模型

高效率使用windows

智能決策新時代：可視化大屏是否能夠超越傳統白板？

解密Prompt系列28. LLM Agent之金融領域摸索：FinMem & FinAgent

分享幾個.NET開源的AI和LLM相關項目框架

Hadoop簡介與安裝

activiti表說明

同時運行多個Tomcat

流程開發-Activiti

Java整數類型取值範圍計算

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結