mapreduce的shuffle，partition，combine

原創

2018-09-07 21:56

[b]shuffle：[/b]

　　是描述着數據從map端傳輸到reduce端的過程，而且我們知道的是hadoop的集羣環境中，大部分map task和reduce task是在不同的node上執行，主要的開銷是網絡開銷和磁盤IO開銷，因此shuffle的主要作用相當於是

　　1.完整的從map task端傳輸到reduce task端。

　　2.跨節點傳輸數據時，儘可能減少對帶寬的消耗.（注意是reduce執行的時候去拉取map端的結果）

　　3.減少磁盤IO開銷對task的影響。

shuffle的詳細：http://webcache.googleusercontent.com/search?q=cache:MP_qIMfp1N4J:langyu.iteye.com/blog/992916+mapreduce+shuffle+partition%E4%BD%9C%E7%94%A8&cd=1&hl=zh-CN&ct=clnk&gl=cn

[b]Partition：[/b]
Partition主要作用就是將map的結果發送到相應的reduce。這就對partition有兩個要求：

1）均衡負載，儘量的將工作均勻的分配給不同的reduce。

2）效率，分配速度一定要快。

　　重定向mapper的輸出，根據key來決定mapper應該講k，v對輸出給誰，默認採用的hash key來實現，也可以根據自己的需要來實現。

partition的更多參考：http://blog.oddfoo.net/2011/04/17/mapreduce-partition%E5%88%86%E6%9E%90-2/

[b]combiner：[/b]

　　相當於本地的reduce，在分發mapper的結果之前做一下本地的reduce，比如說wordcount程序，單詞“a”出現了500次，存儲並洗牌一次（“a”，500）鍵值對比許多次（“a”，1）要高效。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

分佈式系統各個節點狀態如何同步？淺談一下

寫在前面：2020年面試必備的Java後端進階面試題總結了一份複習指南在Github上，內容詳細，圖文並茂，有需要學習的朋友可以Star一下！ GitHub地址：https://github.com/abel-max/Java-S

毛发旺盛的程序员

2020-07-08 12:27:30

ZooKeeper 一致性協議 ZAB 原理，瞭解一下

一致性協議有很多種，比如 Paxos，Raft，2PC，3PC等等，在這講一種協議，ZAB 協議，該協議應該是所有一致性協議中生產環境中應用最多的了。爲什麼？因爲它是爲 Zookeeper 設計的分佈式一致性協議！ 1. 什麼是

毛发旺盛的程序员

2020-07-08 12:27:20

七、分佈式環境搭建——ElasticSearch集羣搭建及集羣管理工具cerebro

首先各節點安裝好elasticsearch 參考：https://mp.csdn.net/mdeditor/91390470# 1 集羣配置elasticsearch.yml （1）節點1配置 cluster.name: tan

2020-07-08 11:45:49

高性能 Netty 之結合 Http 協議應用

經過了這麼多篇文章，其實大家也肯定知道， Netty 主要是在 OSI 七層網絡層的應用層進行數據處理的（因爲 Socket 是出於傳輸層以上的東西，是應用層與傳輸層的一個抽象層）。所以肯定明白 Netty 在協議這方面肯定是能夠掌控

一直孤独的程序猿

2020-07-08 11:39:17

nacos服務註冊剖析

最近正在負責將公司內部的服務註冊中心做轉移工作，正準備切入到nacos註冊中心，於是花了些時間去整理學習關於使用nacos的一些筆記，並進行一番文檔的輸出。使用版本 nacos-1.1.4版本 nacos註冊中心的簡單介紹 na

2020-07-08 10:35:00

一起來看看那幾個SpringCloud常見卻又不會的面試題（含答案）

推薦閱讀：爲了阿里巴巴的P7offer，我籌備了半年，四面之後終於成功拿下面試阿里（P8）竟被MySQL難倒，奮發圖強二次面試斬獲阿里offer 爲面阿里P8，我肝

2020-07-08 10:00:46

RabbitMQ的可複用的事務消息全乾貨超實用案例

推薦閱讀：爲了阿里巴巴的P7offer，我籌備了半年，四面之後終於成功拿下面試阿里（P8）竟被MySQL難倒，奮發圖強二次面試斬獲阿里offer 爲面阿里P8，我肝

2020-07-08 10:00:46

想要職級到P7，啃完這946頁阿里P8面試官都說詳細的神仙文檔足矣

前言應廣大粉絲要求，網上太多資料不夠詳細，不夠全面，花了很多心思去收集，到頭來發現並不全面，於是出現了本文，筆者在GitHub上找了很久終於找到了三份最全的Java學習筆記，總頁數946頁！涵蓋知識：面試必問的：Java基礎、高併發

2020-07-08 10:00:46

zookeeper源碼分析--序列化篇

其實很多時候我們都在使用zkclient這款jar包對zk進行相關的操作，但是在zkclient裏面到底發生了什麼，我們卻並不是很清楚。對zk的瞭解出了簡單的節點創建，刪除，監聽以外，我們還可以加深對它的思想理解。下邊我們來深入

2020-07-08 09:57:37

Dubbo技術知識總結之五——Dubbo遠程調用

接上篇《Dubbo技術知識總結之四——Dubbo集羣容錯》五. 遠程調用上篇《Dubbo技術知識總結之四——Dubbo集羣容錯》的七個步驟中，前四個步驟是 Cluster 層的工作。遠程調用是後續步驟 5, 6, 7 的內

2020-07-08 09:16:27

Redis技術知識總結之五——Redis集羣模式

接上篇《Redis技術知識總結之四——Redis內存優化》五. Redis 集羣模式參考地址：《redis三種模式對比》 Redis 集羣模式有三種：主從模式（Redis 2.8 版本之前）、哨兵模式（Redis 3

2020-07-08 09:16:27

Dubbo技術知識總結之一——Dubbo架構

一. Dubbo 架構參考地址：《dubbo系列三、架構介紹及各模塊關係》 Dubbo 是阿里服務化治理方案的核心框架，是一種分佈式 RPC 框架，它提供了註冊中心機制，解耦了消費方與服務方動態發現的問題。 1.1 Dubb

2020-07-08 09:16:27

Dubbo技術知識總結之四——Dubbo集羣容錯

接上篇《Dubbo技術知識總結之三——Dubbo 啓動與服務暴露、引用》四. 集羣容錯在客戶端已經從註冊中心拉取和訂閱服務列表完畢的前提下，Dubbo 完成一次完整的 RPC 調用，流程如下：服務列表聚合；路由；負

2020-07-08 09:16:27

Kafka技術知識總結之四——Kafka 再均衡

接上篇《Kafka技術知識總結之三——Kafka 高效文件存儲設計》四. Kafka 再均衡原理 4.1 消費者再均衡 Kafka 通過消費組協調器 (GroupCoordinator) 與消費者協調器 (Consumer

2020-07-08 09:16:27

構建自己的簡單微服務架構

總體介紹隨着業務需求的快速發展變化，需求不斷增長，迫切需要一種更加快速高效的軟件交付方式。微服務可以彌補單體應用不足，是一種更加快速高效軟件架構風格。單體應用被分解成多個更小的服務，每個服務有自己的獨立模塊，單獨部署，然後共同組

2020-07-08 09:08:45

24小時熱門文章

最新文章

最新評論文章