新手指导:mapreduce不同类型的数据分到同一个分区是否会影响输出结果
问题导读
1.不同类型数据被分到同一个分区,是否会影响输出结果?
2.分区函数该如何实现
此篇需要对mapreduce有一定的了解,知道了解mapreduce的过程中,map需要分区,有多少个分区就有多少个reduce。因此我们的map是如何分区的。
map通过Partitioner实现分区。Partitioner则是通过取余算法来实现的。
比如:
1.默认分区
key.hashcode%numPartitions
如果数值相同则被分到同一个分区。
2.自定义分区
在如下面是对男女进行分区:
对于上面假如我们把这些数据都放到一个分区中,
是否会影响输出结果那?
答案是不影响输出结果。
影响的是什么?
如果都放到一个分区,会造成性能下降。
1.不同类型数据被分到同一个分区,是否会影响输出结果?
2.分区函数该如何实现
此篇需要对mapreduce有一定的了解,知道了解mapreduce的过程中,map需要分区,有多少个分区就有多少个reduce。因此我们的map是如何分区的。
map通过Partitioner实现分区。Partitioner则是通过取余算法来实现的。
比如:
1.默认分区
key.hashcode%numPartitions
如果数值相同则被分到同一个分区。
2.自定义分区
在如下面是对男女进行分区:
对于上面假如我们把这些数据都放到一个分区中,
是否会影响输出结果那?
答案是不影响输出结果。
影响的是什么?
如果都放到一个分区,会造成性能下降。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
Hive引擎底层初探
原創
2024-04-17 11:18:21
高效调度新篇章:详解DolphinScheduler 3.2.0生产级集群搭建
原創
2024-05-15 21:22:54
14 hive安装
osc_pjx77r92
2024-05-14 00:41:14
Impala数据文件的碎碎念
原創
2024-05-12 21:38:18
O2OA(翱途)开发平台为待办创建配置邮件通知
原創
2024-05-09 23:10:17
从零开始学架构V2-初识架构设计-1
原創
2024-04-25 23:56:25
利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署环境中构建无服务器数据仓库
原創
2024-04-25 21:18:23
告别手动调度,海豚调度器 3.1.x 集群部署让你轻松管理多机!
原創
2024-04-23 21:18:20
入职3年-我如何做一名AI产品经理
原創
2024-04-22 11:16:31
用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本
原創
2024-04-15 21:18:44
解密数仓的SQL ON ANYWHERE技术
原創
2024-04-03 10:32:41
Apache DolphinScheduler-3.2.0集群部署教程
原創
2024-03-11 21:25:56
Apache Linkis 1.3.0 适配 华为MRS+Scriptis 实战分享
微衆開源
2024-02-23 21:45:28