1.體系
- 大數據概念,計算體系
- 數據採集、建模和分析
- 大數據處理的分析算法
- 大數據處理技術
- 數據可視化
- Hadoop計算體系
- HDFS/HBase存儲架構
- MapReduce計算模型
- 計算模型和架構
- 開發平臺和工具軟件
2.大數據概念
- 大數據(Big Data)特點:(4v)
- 數據量大(數據存儲不用關係型數據庫---使用基於分佈式文件系統的分佈式數據庫(例如NoSQL非關係型)、存儲(基於逐漸的行存儲----基於鍵值對的列存儲))、計算模型
- 數據異構化(來源、類型豐富)
- 數據處理需要時效性
- 大規模數據價值(區別於傳統數據統計學處理數據:對象(局部和整體)、處理方法(抽樣和累計每一條)、結果正確性)
- 數據轉化過程:數據(二進制數據)--信息(計算機程序呈現的信息)---知識(通過分析信息)--價值
3.大數據計算系統
-
數據存儲系統數據:
- 數據採集、數據清洗(轉爲標準存儲格式:鍵值對結構,hash表檢索)、
- 建模型
- (概念(一個主管下五個職工)、
- 邏輯(數據庫完成:外鍵職工有列所屬主管編號)、
- 物理(分佈式文件系統完成:存到內存中)
-
存儲架構(分佈式)、數據倉庫、統一數據接口
- 數據處理系統:
- 數據應用系統(可視化)