1.大數據計算體系可歸納三個基本層次:
數據應用系統,數據處理系統,數據存儲系統
2.計算的總體架構
HDFS(Hadoop 分佈式文件系統)
(1)設計思想:分而治之,將大文件大批量文件,分佈式存放在大量服務器上,以便於採取分而治之的方式對海量數據進行運算分析。
(2)首先,它是一個文件系統,用於存儲文件,通過統一的命名空間–目錄樹來定位文件。然後,它是分佈式的,又很多服務器聯合起來實現其功能,集羣中的服務器有各自的角色。有namenode和datanode兩部分,有點類似索引結構,並採用備份的方式,例如第二namenode和b1出現3次。
數據處理系統的比較
主要看mapreduce和spark的兩個極端,包括時延和硬件的需求。
mapreduce計算模型
3.計算模型和計算架構