《spark编程基础scala版读书笔记》第一章书后问题

原創

2019-07-30 08:47

《spark编程基础scala版读书笔记》第一章书后问题

5、试阐述MapReduce的基本设计思想

1、请阐述大数据处理的基本流程

大数据处理的基本流程主要包括：数据采集、存储管理、处理分析、结果呈现等环节。因此从数据分析全流程的角度来看，大数据技术主要包括数据采集与预处理，数据存储和管理，数据处理与分析，数据可视化，数据安全和隐私保护等几个层面等内容。

2、请阐述大数据的计算模式及其代表产品

大数据计算模式	解决问题	代表产品
批处理计算	针对大规模数据的批量处理	MapReduce 、Spark等
流计算	针对流数据的实时计算	Storm,Flume,Flink、DStream、银河流数据处理平台等
图计算	针对大规模图结构数据的处理	Pregel、GraphX、Giraph、PowerGraph等
查询分析计算	大规模数据的存储管理和查询分析	Hive、Presto、Impala等

3、请列举Hadoop生态系统的各个组件及其功能

4、分布式文件系统HDFS的名称节点和数据节点的功能分别是什么？

名称节点：

作为中心服务器，负责管理文件系统的命名空间以及客户端对文件的访问。

数据节点：

负责处理文件系统客户端的读写请求，在名称节点的统一调度下进行数据块的创建、删除和复制等操作。

5、试阐述MapReduce的基本设计思想

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

《spark编程基础scala版读书笔记》第一章书后问题

《spark编程基础scala版读书笔记》第一章书后问题

1、请阐述大数据处理的基本流程

2、请阐述大数据的计算模式及其代表产品

3、请列举Hadoop生态系统的各个组件及其功能

4、分布式文件系统HDFS的名称节点和数据节点的功能分别是什么？

名称节点：

数据节点：

5、试阐述MapReduce的基本设计思想

钉钉打卡速度慢

Nginx R31 doc 官方文档-01-nginx 如何安装

Qt/C++音视频开发74-合并标签图形/生成yolo运算结果图形/文字和图形合并成一个/水印滤镜

挑战程序设计竞赛 2.2章习题 POJ - 3617 Best Cow Line 贪心

字节面试：MySQL什么时候锁表？如何防止锁表？

.NET8连接SQL SERVER 2008 R2 报：证书链是由不受信任的颁发机构颁发的

golang开发环境搭建(win10)

python计算机视觉学习笔记——PIL库的用法

Golang初学：获取程序内存使用情况，std runtime

基於大數據個性化音樂推薦算法分析（附代碼github地址）

【計算機視覺】（一）

pyspark學習---1、mac：pyspark安裝以及各種運行方法測試以及報錯解決方案

數據開發面試準備資料彙總

Micro Behaviors:A New Perspective in E-commerce Recommendation 文章閱讀以及代碼實驗【數據集來自京東2019年比賽數據】

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

《spark编程基础scala版读书笔记》第一章书后问题

《spark编程基础scala版读书笔记》第一章书后问题

1、请阐述大数据处理的基本流程

2、请阐述大数据的计算模式及其代表产品

3、请列举Hadoop生态系统的各个组件及其功能

4、 分布式文件系统HDFS的名称节点和数据节点的功能分别是什么？

名称节点：

数据节点：

5、试阐述MapReduce的基本设计思想

4、分布式文件系统HDFS的名称节点和数据节点的功能分别是什么？