MapReduce之输入输出类型

原創

2020-02-26 06:19

转载：http://blog.csdn.net/lucktroy/article/details/7957120

话说用hadoop MapReduce编程有一阵子了，但是关于Mapper, Combiner, Reducer的输入输出类型居然花了我一整天。

我本以为Combiner的输入与Mapper的输出一致，Combiner的输出与Reducer的输入一致就可以了，就像图1：

图1 假想

我的程序Mapper输出是<Text, DoubleWritable>; Combiner的输入输出分别是<Text, DoubleWritable>, <Text, Text>; 然后Reducer的输入是<Text, Text>.

我本想逻辑上都没问题，但事与愿违，老出错.

在hadoop中，默认的job.setOutputkeyClass(*.class), job.setOutputValueClass(*.class)是针对Mapper与Reducer的，这里因为两者不同，我试着用job.setMapOutputKeyClass(*.class)与job.setMapOutputValueClass(*.class)区分. 但依然有错误.

在几经周折后，在看完一篇博文“《Data-intensive Text Processing with MapReduce》读书笔记第3章：MapReduce算法设计(1)”后，发现原来Mapper与Combiner的输出均要与Reducer对应（见图2），于是改了过来，终于通过，因为没有看过hadoop源码，所以也不知道它底层具体是如何实现的.

图2 实际

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

「Java开发指南」如何用MyEclipse搭建GWT 2.1和Spring？（二）

本教程將指導您如何生成一個可運行的Google Web Toolkit (GWT) 2.1和Spring應用程序，該應用程序爲域模型實現了CRUD應用程序模式。在本教程中，您將學習如何：安裝Google Eclipse插件爲GWT配置

2024-05-17 12:21:26

Java ThreadPoolShutdown

CountDownLatch 是 Java 中的一個同步工具類，它允許一個或多個線程等待一系列指定操作執行完成。CountDownLatch 的主要方法有兩個：await() 方法等待 countDown 方法被調用指定的次數後繼續執行，c

2024-05-17 02:06:32

通过MVEL表达式和Apache Chain职责链模式解耦MQ消息处理节点的实践应用

導讀本文主要講解了MVEL表達式和責任鏈設計模式相結合一起的消息處理解決方案設計、解耦消息處理節點以及方便代碼維護擴展。通過“訂單拆單消息”的接入作爲具體實踐案例，簡要闡述了MVEL表達式和Apache Chain職責鏈設計模式應用場景。

2024-05-16 23:56:24

Spring @EnableXxx注解的使用理解

@EnableXxx註解 Spring有很多@EnableXxx這種形式的註解，類似於可以一鍵打開某項功能，相當於暴露給用戶的一種便捷的配置API，例如 @EnableAsync 激活異步執行能力，@EnableTransactionMan

2024-05-16 23:48:06

java将list结果分成3份执行原创

Java將List結果分成3份執行在Java編程中，有時候我們需要將一個List集合中的元素分成幾部分進行處理。這種情況下，我們可以使用Java的相關類庫和API來實現這一需求。在本文中，我們將介紹如何使用Java將List結果分成3份執

2024-05-16 02:09:55

OSS_PIPE：Rust编写的大规模文件迁移工具

‍ 隨着業務的發展，文件數量和文件大小會急劇增加，文件遷移的數量和難度不斷攀升。oss_pipe 是rust編寫的文件遷移工具，旨在支撐大規模的文件遷移場景。編寫 oss_pipe 的初衷 •同類產品面臨的問題 •rust 語

京東雲開發者

2024-05-15 23:59:27

高效调度新篇章：详解DolphinScheduler 3.2.0生产级集群搭建

轉載自tuoluzhe8521 導讀：通過簡化複雜的任務依賴關係， DolphinScheduler爲數據工程師提供了強大的工作流程管理和調度能力。在3.2.0版本中，DolphinScheduler帶來了一系列新功能和改進，使其在生產環

2024-05-15 21:22:54

Spring cloud gateway入门

微服務Gateway 微服務網關部署在前端Nginx網關和後端微服務之間，Nginx一般充當流量網關，而微服務網關屬於一種業務型網關，微服務網關層爲後端的微服務羣組提供統一的接入地址，其核心功能是統一做服務路由，在路由基礎上還可以實現一

2024-05-15 11:50:15

JDBC连接openGauss6.0和PostgreSQL16.2性能对比

本文分享自華爲雲社區《JDBC連接openGauss6.0和PostgreSQL16.2性能對比》，作者： Gauss松鼠會小助手。 PostgreSQL vs openGauss 01 前置準備安裝JDK：詳細安裝步驟請問度娘，輸

2024-05-14 11:00:08

为什么阿里不建议用excutors创建线程池

1 前言：大家都知道，阿里規範中有一條是不允許用excutors去創建線程池，而是採用ThreadPoolExecutor的原生方式去創建。很早就聽過所過這種說法，但是一直都沒去搞清楚是爲什麼，今天就查閱資料去了解了這

2024-05-14 02:07:06

Java游戏服务器3

1)編碼消息長度(short int-->2個字節) + 消息編號(short int--》2個字節) + 消息體 2)Protobuf協議文檔 (1)syntax="proto3"; (2)命名格式

2024-05-14 02:04:28

Android内存管理机制官方详解文档

很早之前寫過一篇《Android內存管理機制詳解》點擊量已7萬+，現把Google官方文檔整理輸出一下，供各位參考。一、內存管理概覽 Android 運行時 (ART) 和 Dalvik 虛擬機使用分頁和內存映射來管理內存。這意味着應用

2024-05-14 00:37:42

OSS_PIPE：Rust编写的大规模文件迁移工具| 京东云技术团队

文盤rust 好久沒有更新了。這段時間筆者用rust寫了個小東西，跟各位分享一下背景隨着業務的發展，文件數量和文件大小會急劇增加，文件遷移的數量和難度不斷攀升。oss_pipe 是rust編寫的文件遷移工具，旨在支撐大規模的文件遷移場

2024-05-13 23:59:27

面试官：说说你对序列化的理解

本文主要內容背景在Java語言中，程序運行的時候，會產生很多對象，而對象信息也只是在程序運行的時候纔在內存中保持其狀態，一旦程序停止，內存釋放，對象也就不存在了。怎麼能讓對象永久的保存下來呢？--------對象序列化。何

2024-05-13 22:58:28

JAVA基础之常用类（一）String

綱要 String StringBuffer 基礎類型對應的8個包裝類日期相關類數字相關類 Random Enum 1. 理解String類的存儲原理 String類是不可變類，也就是說String對象聲明後，將不可修改。 S

2024-05-13 22:07:29

24小時熱門文章

最新文章

最新評論文章