MAP/REDUCE-shuffle流程簡單概述

原創

2020-06-11 03:55

我簡單地將shuffle流程分成以下兩部分：

map task
程序會根據InputFormat將輸入文件分割成splits，每個split會作爲一個map task的輸入，每個map task會有一個內存緩衝區，輸入數據經過map階段處理後的中間結果會寫入內存緩衝區（環形緩衝區，這個暫時就不深入了），並且決定數據寫入到哪個partitioner，當寫入的數據到達內存緩衝區的的閥值(默認是0.8)，會啓動一個線程將內存中的數據溢寫入磁盤，同時不影響map中間結果繼續寫入緩衝區。在溢寫之前，MapReduce框架會對key進行分區和排序，如果中間結果比較大，會形成多個溢寫文件（按區劃分），最後的緩衝區數據也會全部溢寫入磁盤形成一個溢寫文件(最少有一個溢寫文件)，如果是多個溢寫文件，則最後合併所有的溢寫文件爲一個文件（依然按區劃分，伴隨有一次排序）。

reduce task
當所有的map task完成後，每個map task會形成一個最終文件，並且該文件按區劃分。reduce任務啓動之前，一個map task完成後，就會啓動線程來拉取map結果數據到相應的reduce task，不斷地合併數據，爲reduce的數據輸入做準備，當所有的map task完成後，數據也拉取合併完畢後，reduce task 啓動，最終將輸出輸出結果存入HDFS上。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Hive引擎底層初探

1、什麼是Hive Hive是一個基於Hadoop的數據倉庫工具,用於處理和分析大規模結構化數據。Hive提供了類似SQL的查詢語言(HiveQL)，使得熟悉SQL的用戶能夠查詢數據。Hive將SQL查詢轉換爲MapReduce任務，以在

2024-04-17 11:18:21

hive 、spark 、flink之想一想

hive 1：hive是怎麼產生的？ 2：hive的框架是怎麼樣的？ 3：hive 執行流程是什麼？ 4：hive sql是如何把sql語句一步一步到最後執行的？ 5：hive sql任務常用參數調優做過什麼？ spark 6：sp

2024-03-27 01:22:41

使用Hadoop和Nutch構建音頻爬蟲：實現數據收集與分析

1. 背景介紹隨着音頻內容在互聯網上的廣泛應用，如音樂、播客、語音識別等，越來越多的企業和研究機構希望能夠獲取和分析這些數據，以發現有價值的信息和洞察。而傳統的手動採集方式效率低下，無法滿足大規模數據處理的需求，因此需要利用自動化爬

2024-02-22 01:13:43

分佈式場景怎麼Join | 京東雲技術團隊

背景最近在閱讀查詢優化器的論文，發現System R中對於Join操作的定義一般分爲了兩種，即嵌套循環、排序-合併聯接。在原文中，更傾向使用排序-合併聯接邏輯。考慮到我的領域是在處理分庫分表或者其他的分區模式，這讓我開始不由得聯想我們

2024-02-21 01:10:25

老知識覆盤-SQL從提交到執行到底經歷了什麼 | 京東雲技術團隊

一、什麼是SQL sql(Structured Query Language: 結構化查詢語言)是高級的費過程化編程語言,允許用戶在高層數據結構上工作, 是一種數據查詢和程序設計語言, 也是(ANSI)的一項標準的計算機語言. but...

2023-11-22 12:37:34

MaxCompute 發佈按量付費閒時版，計算成本最高節省66.66%！

什麼是按量付費閒時版開通MaxCompute按量付費閒時版，意味着用戶可以使用MaxCompute閒時計算資源（os_SpotQuota），它是一種共享型按量付費計算資源，閒時計算資源池與按量付費標準版計算資源共享，與包年包月計算資源隔

2023-08-17 00:29:28

開源大數據平臺 E-MapReduce Serverless StarRocks 產品介紹

摘要：本文將分享阿里雲與 StarRocks 社區合作打造的雲上 StarRocks 極速湖倉的雲原生產品實踐。主要包括四個部分，第一部分介紹 StarRocks 全託管形態，以及免運維服務的 OLAP 雲產品；第二部分介紹 Star

2023-06-06 00:24:27

YARN監控管理與資源管理

文章目錄 1 YARN Web UI服務 1.1 WebUI V1服務 1.2 JobHistoryServer服務 1.3 TimelineServer服務 2 YARN操作維護命令 2.1 User用戶命令 2.1.1 applicat

2023-04-05 00:04:18

關係代數和SQL語法

數據分析的語言接口 OLAP計算引擎是一架機器，而操作這架機器的是編程語言。使用者通過特定語言告訴計算引擎，需要讀取哪些數據、以及需要進行什麼樣的計算。編程語言有很多種，任何人都可以設計出一門編程語言，然後設計對應的編譯器做解析。編程語言

2023-01-31 00:01:22

既然有MySQL了，爲什麼還要有MongoDB？

大家好，我是哪吒，最近項目在使用MongoDB作爲圖片和文檔的存儲數據庫，爲啥不直接存MySQL裏，還要搭個MongoDB集羣，麻不麻煩？讓我們一起，一探究竟，瞭解一下MongoDB的特點和基本用法，實現快速入門，豐富個人簡歷，提高面試l

2023-01-07 00:10:45

如何通過鏈路追蹤進行定時任務診

背景簡介什麼是定時任務定時任務是業務應用系統中存在定時週期性運行的業務邏輯。由於其運行於後端進程中往往存在執行狀態和執行鏈路的不可見性《常見定時任務技術方案》。什麼是鏈路追蹤隨着分佈式微服務化架構在企業中大規模運用，業務運行的

2022-12-26 11:55:42

hadoop本地運行官方Grep案例 wordCount案例

環境準備點擊此處查看 Grep案例第一步: 在Hadoop文件夾下 mkdir input cp etc/hadoop/*.xml input/ hadoop jar share/hadoop/mapreduce//hadoop-ma

2021-12-25 21:38:32

什麼是OLAP？主流八大開源OLAP技術架構對比

隨着大數據技術在各行各業的深入應用，對於海量數據的分析需求也愈加凸顯，OLAP技術也逐漸走入人們的視野。本文將圍繞常見的開源OLAP引擎展開，介紹什麼是OLAP以及OLAP的常見操作和分類，並對目前主流的開源OLAP引擎進行對比和特點的總結

2021-12-25 21:30:41

深入淺出學習Hive

本文是基於CentOS 7.9系統環境，進行hive的學習和使用一、Hive的簡介 1.1 Hive基本概念 (1) 什麼是hive Hive是用於解決海量結構化日誌的數據統計工具，是基於Hadoop的一個數據倉庫工具，可以將結構化的

2021-12-25 21:19:49

關於HIVE做MapReduce報錯:return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

大部分人沒有交換分區的問題。因爲在做Linux的時候交換分區是按照內存的2倍來做的。但是我的是用VM快速裝機做的。所以交換分區被設置成了等於內存。擴展交換分區：https://blog.csdn.net/Ares_song/articl

2021-12-25 21:14:20

24小時熱門文章

最新文章

最新評論文章