MR分布式计算理论

原創

2019-08-23 10:56

MapReduce设计理念：

移动计算，而不是移动数据

两个阶段，Map / Reduce

Map和Reduce之间的Shuffle、Partition、Combiner过程的理解

Shuffle过程：每个map task都有一个内存缓冲区，存储着map的输出结果，默认100MB（也可以通过设置配置文件中的参数mapreduce.task.io.sort.mb来设置），当缓冲区快满的时候，会将缓冲区的数据以一个临时文件的方式存放到磁盘中（找个过程是独立的线程执行，默认达到缓冲区容量80%的时候会启动该线程），当整个map task结束后再对磁盘中的找个map task产生的所有零食文件进行合并，生成最终的正式输出文件，等待reduce task来拉数据。

Partition理解：根据key或者 value及reduce的数量来决定当前的输出结果该有那个reduce task处理，默认对ken hash后再模以reduce task的数量，默认的方式只是为了平均reduce的处理能力，Partition过程可以定制。

Combiner理解：每个reduce端合并数据时，有些数据可能像这样：“aaa”/1， “aaa”/1。对于WordCount例子，就是简单地统计单词出现的次数，如果在同一个map task的结果中有很多个像“aaa”一样出现多次的key，我们就应该把它们的值合并到一块，这个过程叫reduce也叫combine。但MapReduce的术语中，reduce只指reduce端执行从多个map task取数据做计算的过程。除reduce外，非正式地合并数据只能算做combine了。其实大家知道的，MapReduce中将Combiner等同于Reducer。Combiner的输出是Reducer的输入，Combiner绝不能改变最终的计算结果。

参考博客：https://www.cnblogs.com/ljy2013/articles/4435657.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

鼠标控制软件有可能和虚拟机软件产生冲突

最近Virtualbox虛擬機經常卡頓、鼠標無法點擊，給工作帶來很多麻煩。有一次身子在開會的時候直接卡死，特別尷尬。。一開始以爲是輸入法或者操作系統補丁的問題，但調整後並不能解決。更改虛擬機的各種設置，全部無效。之後升級了Virt

2024-06-13 14:37:05

比特币区块检查

比特幣採用Pow共識機制，即不斷調整Nonce值，對區塊頭做雙重SHA256哈希運算，使得結果滿足給定數量前導0的哈希值的過程。其中前導0的個數，取決於挖礦難度，前導0的個數越多，挖礦難度越大。 1 塊兒產生時的檢查首先，生成鑄幣交易，並

2024-06-13 14:36:55

自定义MyBatis插件

插件原理回顧在前面，我們通過 MyBatis插件機制介紹與原理分析了 MyBatis 插件的基本原理，但是可能還只是理論上的分析，沒有實戰的鍛鍊可能理解的還是不夠透徹。接下來，我們通過自定義插件實例來進一步深度理解 MyBatis 插件

燈塔下的守望者

2024-06-13 14:36:45

高性能版本的零内存分配LikeString函数（ZeroMemAllocLikeOperator）

繼上一篇文章在.NET Core，除了VB的LikeString，還有其它方法嗎？(四種LikeString實現分享)分享了四種實現方式，筆者對這四種實現方式，不管是執行性能還是內存分配性能上，都不太滿意。那麼是否有好的實現方法呢？答案是

2024-06-13 14:35:54

【java基础】java线程的四种创建方式

1.繼承Thread類 2.實現Runnable接口因爲Runnable接口就是支持函數式編程的接口，可以這麼玩 3.實現Callable接口，用FutureTask<T>獲取返回值。FutureTask還是繼承的Runn

金大鑫要堅持

2024-06-13 14:32:24

【java基础】线程池的状态流转

前言：首先要知道什麼是線程池？池化：數據庫連接池，線程池，字符串常量池線程是用來執行任務的，如果不用線程池，那麼線程每次使用前創建，使用後釋放，資源利用率低。所以說用線程池提高了線程對象利用率。所以可以用線程池完成，先創建好那麼

金大鑫要堅持

2024-06-13 14:32:24

微服务实践之使用 kube-vip 搭建高可用 Kubernetes 集群

實驗環境原理生成kube-vip靜態pod配置清單 export VIP=192.168.215.200 # 我的vip是192.168.215.200 export INTERFACE=ens33 #可以用 ip a 查看接口名稱

2024-06-13 14:30:24

Keyboard Maestro 常用的 Actions 记录

前言使用 Keyboard Maestro 做自動化管理是，Actions太多了，總是記不住，這裏特意記錄一下正文觸發鍵盤按鍵 Type a Keystroke Categories: Interface Control Action

2024-06-13 14:27:44

一款.NET开源、功能强大、跨平台的绘图库 - OxyPlot

前言今天大姚給大家分享一款.NET開源（MIT License）、免費、跨平臺、功能強大的繪圖庫，支持多平臺使用（包括：WPF、UWP、WinForm、Silverlight、Xamarin.iOS、Xamarin.Android、Xam

2024-06-13 14:27:24

一个开源且全面的C#算法实战教程

前言算法在計算機科學和程序設計中扮演着至關重要的角色，如在解決問題、優化效率、決策優化、實現計算機程序、提高可靠性以及促進科學融合等方面具有廣泛而深遠的影響。今天大姚給大家分享一個開源、免費、全面的C#算法實戰教程：TheAlgorith

2024-06-13 14:27:24

重新搞黑魂1的mod

筆記本沒顯卡. 玩黑魂1, 不是重置版還可以. 裝上受死版之後, 需要打dsfix 的補丁. 設置: DSfix.ini # internal rendering resolution of the game # higher values

張博的博客

2024-06-13 14:25:14

C语言--右移左移

C語言--右移左移右移，高位補符號位，低位移除（正整數符號位爲0，負整數符號位爲1） 16 >> 2 等價爲 16 /（ 2 * 2）左移，高位移除，低位補零，最高位爲1時，表示負數。16 << 2 等價爲 16 *（ 2 * 2）

張博的博客

2024-06-13 14:25:14

Redis相关总结

一、緩存雪崩、緩存穿透現象：緩存雪崩：大量緩存同時過期、緩存中間件宕機緩存穿透：訪問不存在key、緩存過期解決：緩存雪崩：設置不同過期時間緩存穿透：不存在key也存入緩存、使用布隆過濾器、使用分佈式

2024-06-13 14:24:13

HbuilderX，找不到rollup/rollup-win32-x64-msvc

在使用HbuilderX,使用vue3開發uniapp時，我運行app，報錯，rollup組件找不到了。這個rollup是一個編譯js的工具，win32-x64的意思是採用windows版本64位的運行版本，msvc是說，需要windows

2024-06-13 14:22:53

sc-token传参方式20240613

2024-06-13 14:20:13

24小時熱門文章

最新文章

最新評論文章