Distributed Sort via MapReduce vs. K路歸併+快排

原創

2020-05-31 15:52

Distributed Sort via MapReduce
- Map function just output key+record
- Partition immediate keys to R pieces and this R pieces is sorted partitions for the key value domain. This functions as bucket sorting
- R function does quick sort on input keys(suppose all keys can be held in memory and no external sort needed)
- Then the computation complexity is(suppose N keys in total)
  - Map phase: N
  - Reduce pahse: R * (N/R * log(N/R)) = NlogN - NlogR
  - Two rounds read & write on input
K路歸併+快排
- 快排複雜度：K * (N/K * log(N/K)) = NlogN - NlogK
- K路歸併複雜度：NlogK
- 對input的兩輪讀寫
總結
- 若R==K，兩者的計算與IO複雜度都相當，但Reduce階段可分佈式併發執行，而K路歸併排序只能串行操作，總體來說MapReduce在實際應用中更好。
- 另外，需要注意的是，兩者中IO的時間與CPU計算的時間都相當，假設數據量爲1TB（2^40B），IO速度爲100MB/s，CPU爲2GHZ，K=R=1000，串行處理情況下大致計算如下，併發情況類似：
  - 計算時間：2^40 * (1 + log(2^40) - log1000) / (2 * 2^30)= 2^9* (1 + 40 - 10) = 15000s
  - IO時間：1TB/(100MB/s) * 2 = 2^21/100 = 20000s

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Hive引擎底層初探

1、什麼是Hive Hive是一個基於Hadoop的數據倉庫工具,用於處理和分析大規模結構化數據。Hive提供了類似SQL的查詢語言(HiveQL)，使得熟悉SQL的用戶能夠查詢數據。Hive將SQL查詢轉換爲MapReduce任務，以在

2024-04-17 11:18:21

hive 、spark 、flink之想一想

hive 1：hive是怎麼產生的？ 2：hive的框架是怎麼樣的？ 3：hive 執行流程是什麼？ 4：hive sql是如何把sql語句一步一步到最後執行的？ 5：hive sql任務常用參數調優做過什麼？ spark 6：sp

2024-03-27 01:22:41

使用Hadoop和Nutch構建音頻爬蟲：實現數據收集與分析

1. 背景介紹隨着音頻內容在互聯網上的廣泛應用，如音樂、播客、語音識別等，越來越多的企業和研究機構希望能夠獲取和分析這些數據，以發現有價值的信息和洞察。而傳統的手動採集方式效率低下，無法滿足大規模數據處理的需求，因此需要利用自動化爬

2024-02-22 01:13:43

分佈式場景怎麼Join | 京東雲技術團隊

背景最近在閱讀查詢優化器的論文，發現System R中對於Join操作的定義一般分爲了兩種，即嵌套循環、排序-合併聯接。在原文中，更傾向使用排序-合併聯接邏輯。考慮到我的領域是在處理分庫分表或者其他的分區模式，這讓我開始不由得聯想我們

2024-02-21 01:10:25

老知識覆盤-SQL從提交到執行到底經歷了什麼 | 京東雲技術團隊

一、什麼是SQL sql(Structured Query Language: 結構化查詢語言)是高級的費過程化編程語言,允許用戶在高層數據結構上工作, 是一種數據查詢和程序設計語言, 也是(ANSI)的一項標準的計算機語言. but...

2023-11-22 12:37:34

MaxCompute 發佈按量付費閒時版，計算成本最高節省66.66%！

什麼是按量付費閒時版開通MaxCompute按量付費閒時版，意味着用戶可以使用MaxCompute閒時計算資源（os_SpotQuota），它是一種共享型按量付費計算資源，閒時計算資源池與按量付費標準版計算資源共享，與包年包月計算資源隔

2023-08-17 00:29:28

開源大數據平臺 E-MapReduce Serverless StarRocks 產品介紹

摘要：本文將分享阿里雲與 StarRocks 社區合作打造的雲上 StarRocks 極速湖倉的雲原生產品實踐。主要包括四個部分，第一部分介紹 StarRocks 全託管形態，以及免運維服務的 OLAP 雲產品；第二部分介紹 Star

2023-06-06 00:24:27

YARN監控管理與資源管理

文章目錄 1 YARN Web UI服務 1.1 WebUI V1服務 1.2 JobHistoryServer服務 1.3 TimelineServer服務 2 YARN操作維護命令 2.1 User用戶命令 2.1.1 applicat

2023-04-05 00:04:18

關係代數和SQL語法

數據分析的語言接口 OLAP計算引擎是一架機器，而操作這架機器的是編程語言。使用者通過特定語言告訴計算引擎，需要讀取哪些數據、以及需要進行什麼樣的計算。編程語言有很多種，任何人都可以設計出一門編程語言，然後設計對應的編譯器做解析。編程語言

2023-01-31 00:01:22

前端面試題 - 說一下原型和原型鏈？

前端面試題 - 說一下原型和原型鏈？ JavaScript 中，萬物皆對象，對象分爲普通對象和函數對象。所有的函數都是函數對象（typeof f === 'function'），其他都是普通對象（typeof o === 'object'

2024-04-24 23:51:10

Oracle數據庫中的索引類型分類

唯一索引（Unique Index）：保證索引列的值是唯一的，即重複值不允許。非唯一索引（Non-Unique Index）：允許重複值存在。組合索引（Composite Index）：在表的多個列上創建索引。反向鍵索引（Rever

2024-04-23 21:54:53

從用戶中來，到用戶中去：IPD集成產品開發之FFAB模型，讓你的產品供不應求！

IPD（集成產品開發）模型的核心價值在於它改變了企業對於產品研發的固有觀點，將企業產研的重點由“技術爲導向”升級爲“用戶需求爲導向”，強調企業在產品的研發過程中堅持以用戶/客戶爲中心。在IPD（集成產品開發）的模式中，需要企業或者團隊在限

2024-04-13 00:50:45

數據結構筆記淺記（三）空間複雜度

用於衡量算法佔用內存空間隨着數據量變大時的增長趨勢。這個概念與時間複雜度非常類似，只需將“運行時間”替換爲“佔用內存空間”。算法在運行過程中使用的內存空間主要包括以下幾種。 ‧ 輸入空間：用於存儲算法的輸入數據。

2024-03-23 00:43:15

uniapp rich-text處理富文本里的圖片寬度自適應

/** * 處理富文本里的圖片寬度自適應 * 1.去掉img標籤裏的style、width、height屬性 * 2.img標籤添加style屬性：max-width:100%;height:auto * 3.修改所有style裏的

2024-03-09 02:59:11

Qt/C++音視頻開發69-保存監控pcm音頻數據到mp4文件/監控錄像/錄像存儲和回放/264/265/aac/pcm等

一、前言用ffmpeg做音視頻保存到mp4文件，都會遇到一個問題，尤其是在視頻監控行業，就是監控攝像頭設置的音頻是PCM/G711A/G711U，解碼後對應的格式是pcm_s16be/pcm_alaw/pcm_mulaw，將這個原始的音頻

2024-03-12 11:14:11

24小時熱門文章

最新文章

最新評論文章