《spark編程基礎scala版讀書筆記》第一章書後問題

1、請闡述大數據處理的基本流程

大數據處理的基本流程主要包括:數據採集、存儲管理、處理分析、結果呈現等環節。因此從數據分析全流程的角度來看,大數據技術主要包括數據採集與預處理,數據存儲和管理,數據處理與分析,數據可視化,數據安全和隱私保護等幾個層面等內容。

2、請闡述大數據的計算模式及其代表產品

大數據計算模式 解決問題 代表產品
批處理計算 針對大規模數據的批量處理 MapReduce 、Spark等
流計算 針對流數據的實時計算 Storm,Flume,Flink、DStream、銀河流數據處理平臺等
圖計算 針對大規模圖結構數據的處理 Pregel、GraphX、Giraph、PowerGraph等
查詢分析計算 大規模數據的存儲管理和查詢分析 Hive、Presto、Impala等

3、請列舉Hadoop生態系統的各個組件及其功能

在這裏插入圖片描述

4、 分佈式文件系統HDFS的名稱節點和數據節點的功能分別是什麼?

名稱節點:

作爲中心服務器,負責管理文件系統的命名空間以及客戶端對文件的訪問。

數據節點:

負責處理文件系統客戶端的讀寫請求,在名稱節點的統一調度下進行數據塊的創建、刪除和複製等操作。

5、試闡述MapReduce的基本設計思想

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章