《spark編程基礎scala版讀書筆記》第一章書後問題
1、請闡述大數據處理的基本流程
大數據處理的基本流程主要包括:數據採集、存儲管理、處理分析、結果呈現等環節。因此從數據分析全流程的角度來看,大數據技術主要包括數據採集與預處理,數據存儲和管理,數據處理與分析,數據可視化,數據安全和隱私保護等幾個層面等內容。
2、請闡述大數據的計算模式及其代表產品
大數據計算模式 | 解決問題 | 代表產品 |
---|---|---|
批處理計算 | 針對大規模數據的批量處理 | MapReduce 、Spark等 |
流計算 | 針對流數據的實時計算 | Storm,Flume,Flink、DStream、銀河流數據處理平臺等 |
圖計算 | 針對大規模圖結構數據的處理 | Pregel、GraphX、Giraph、PowerGraph等 |
查詢分析計算 | 大規模數據的存儲管理和查詢分析 | Hive、Presto、Impala等 |
3、請列舉Hadoop生態系統的各個組件及其功能
4、 分佈式文件系統HDFS的名稱節點和數據節點的功能分別是什麼?
名稱節點:
作爲中心服務器,負責管理文件系統的命名空間以及客戶端對文件的訪問。
數據節點:
負責處理文件系統客戶端的讀寫請求,在名稱節點的統一調度下進行數據塊的創建、刪除和複製等操作。