MR -- Shuffle机制

原創

2020-02-26 23:09

1、流程详解
Map 方法之后，Reduce 方法之前的数据处理过程被称为 Shuffle，具体流程为：
(1) MapTask 收集 map() 方法输出的 kv 对，放到内存缓冲区中。
(2) 从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件。
(3) 多个溢出文件会被合并成大的溢出文件。
(4) 在溢出过程及合并的过程中，都要调用 Partitioner 进行分区和针对 key 进行排序。
(5) ReduceTask 根据自己的分区号，去各个 MapTask 机器上取相应的结果分区数据。
(6) ReduceTask 会取到同一个分区的来自不同 MapTask 的结果文件，ReduceTask 会将这些文件再进行合并(归并排序)。
(7) 合并成大文件后，Shuffle 的过程也就结束了，后面进入 ReduceTask 的逻辑运算过程(从文件中取出一个一个的键值对 Group，调用用户自定义的 reduce() 方法)。

2、注意点
Shuffle 中的缓冲区大小会影响到 MapReduce 程序的执行效率，原则上说，缓冲区越大，磁盘 io 的次数越少，执行速度就越快。缓冲区的大小可以通过参数调整，参数：io.sort.mb 默认100M。

3、Shuffle 图示

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

通义灵码实战系列：一个新项目如何快速启动，如何维护遗留系统代码库？

作者：別象進入 2024 年，AI 熱度持續上升，翻閱科技區的文章，AI 可謂是軍書十二卷，卷卷有爺名。而麥肯錫最近的研究報告顯示，軟件工程是 AI 影響最大的領域之一，AI 已經成爲了軟件工程的必選項，也有研究稱開發者每天的事務性工作可

2024-04-30 21:12:20

Apache DolphinScheduler支持Flink吗？

隨着大數據技術的快速發展，很多企業開始將Flink引入到生產環境中，以滿足日益複雜的數據處理需求。而作爲一款企業級的數據調度平臺，Apache DolphinScheduler也跟上了時代步伐，推出了對Flink任務類型的支持。 Flink

2024-04-30 11:49:27

Spring AI 抢先体验，5 分钟玩转 Java AI 应用开发

作者：劉軍 Spring AI 是 Spring 官方社區項目，旨在簡化 Java AI 應用程序開發，讓 Java 開發者像使用 Spring 開發普通應用一樣開發 AI 應用。 Spring Cloud Alibaba AI 以 Spr

2024-04-29 21:12:12

1 名工程师轻松管理 20 个工作流，创业企业用 Serverless 让数据处理流程提效

作者：嶽洋、陳德全、劉靜娜北京語勢科技有限公司成立於 2023 年 6 月，語勢科技定位爲“智能投資時代的主題入口”，在資管行業從以機構爲核心轉向以用戶爲核心的變革時代，通過打造主題投資引擎，賦能普惠投資一體化，打造以投資者和資管機構爲主

2024-04-28 21:12:22

Java集合中的Set

Set 有去重的特性，該體系集合用於存儲無序(存入和取出的順序不一定相同)元素，值不能重複。對象的相等性本質是對象hashCode值（java是依據對象的內存地址計算出的此序號）判斷的，如果想要讓兩個不同的對象視爲相等的，就必須覆蓋Obje

2024-05-02 23:34:26

Java中的List

List 是Java中非常常用的數據類型。 List 是有序的 Collection。 Java List 一共三個實現類：分別是 ArrayList、 Vector 和 LinkedList。 ArrayList（數組） Array

2024-05-01 21:31:27

哈哈哈哈或

在Java編程中，簡潔高效的實現往往涉及幾個關鍵原則和技能。例如，使用簡單的代碼結構來提高代碼訪問性和可維護性，這意味着代碼應該追求清晰、簡潔且模式匿名，因爲過度模式匿名會導致複雜度增長，影響代碼的維護性和效率。其中，簡潔高效還包攜

2024-04-28 00:40:41

Java编程工具：简洁高效实现

Java編程工具：簡潔高效實現Java編程工具：簡潔高效實現Java編程工具：簡潔高效實現

2024-04-27 00:41:09

银行核心背后的落地工程体系丨Oracle - TiDB 数据迁移详解

本文作者：張顯華，孟凡輝，莊培培系列導讀：徐戟（白鱔）數據庫技術專家，Oracle ACE，PostgreSQL ACE Director 當前，國內大量的關鍵行業的核心繫統正在實現國產化替代，而與此同時，這些行業的數字化轉型也正在進入

2024-04-30 22:24:59

Linux下制作Nginx绿色免安装包

前言 linux下安裝nginx比較繁瑣，遇到內網部署環境更是麻煩，所以研究了下nginx綠色免安裝版的部署包製作，開箱即用，特此記錄分享，一下操作在centos8環境下安裝，如果需要其他內核系統的安裝（Debian/Ubuntu等），請在

2024-04-29 21:38:23

有遇到过吗？同样的规则 Excel 中比Python 结果大

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【Jethro Shen】問了一個Python處理Excel數據讀取的問題。問題如下：有遇到過嗎？同樣的規則 Excel 中比Python 結果大？二、實

2024-05-01 09:49:01

这种运行结果里的10.100000001，怎么能最快改成10.1？

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【無敵劈叉小狗】問了一個Python基礎的問題。問題如下：這種運行結果裏的10.100000001，怎麼能最快改成10.1，所有結果都最多一位小數。二、實現過程

2024-04-30 21:49:58

从原始边列表到邻接矩阵Python实现图数据处理的完整指南

本文分享自華爲雲社區《從原始邊列表到鄰接矩陣Python實現圖數據處理的完整指南》，作者：檸檬味擁抱。在圖論和網絡分析中，圖是一種非常重要的數據結構，它由節點（或頂點）和連接這些節點的邊組成。在Python中，我們可以使用鄰接矩陣來表示

2024-04-30 10:34:05

Python爬虫技术与数据可视化：Numpy、pandas、Matplotlib的黄金组合

前言在當今信息爆炸的時代，數據已成爲企業決策和發展的關鍵。而互聯網作爲信息的主要來源，網頁中蘊含着大量的數據等待被挖掘。Python爬蟲技術和數據可視化工具的結合，爲我們提供了一個強大的工具箱，可以幫助我們從網絡中抓取數據，並將其可視

2024-04-29 23:26:28

11个Python循环技巧

本文分享自華爲雲社區《Python中的循環技巧指南》，作者：檸檬味擁抱。當我們處理數據時，有時候需要創建多個列表以存儲不同類型或不同條件下的數據。在Python中，我們可以利用循環來快速、高效地創建這些列表。本文將介紹如何使用循環在Pyt

2024-04-28 10:33:08

24小時熱門文章

最新文章

最新評論文章