MapReduce的一個通俗解釋

原創

为幸福写歌

2020-02-25 08:53

其實我們可以從word count這個實例來理解MapReduce。MapReduce大體上分爲六個步驟：input, split, map, shuffle, reduce, output。細節描述如下：

1. 輸入(input)：如給定一個文檔，包含如下四行：
Hello Java
Hello C
Hello Java

Hello C++

2. 拆分(split)：將上述文檔中每一行的內容轉換爲key-value對，即：
0 - Hello Java
1 - Hello C
2 – Hello Java

3 - Hello C++

3. 映射(map)：將拆分之後的內容轉換成新的key-value對，即：
(Hello , 1)
(Java , 1)
(Hello , 1)
(C , 1)
(Hello , 1)
(Java , 1)
(Hello , 1)

(C++ , 1)

4. 派發(shuffle)：將key相同的扔到一起去，即：
(Hello , 1)
(Hello , 1)
(Hello , 1)
(Hello , 1)
(Java , 1)
(Java , 1)
(C , 1)
(C++ , 1)
注意：這一步需要移動數據，原來的數據可能在不同的datanode上，這一步過後，相同key的數據會被移動到同一臺機器上。最終，它會返回一個list包含各種k-value對，即：
{ Hello: 1,1,1,1}
{Java: 1,1}
{C: 1}

{C++: 1}

5. 縮減(reduce)：把同一個key的結果加在一起。如：
(Hello , 4)
(Java , 2)
(C , 1)

(C++,1)

6. 輸出(output): 輸出縮減之後的所有結果。

轉自知乎：https://www.zhihu.com/question/23345991/answer/223113502

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【MapReduce】總集

學習MapReduce的階段性總結，開個坑，慢慢更新 MapReduce已經預定義（或者說寫好）了整個數據分析的流程，所以只按照相應的要求把業務需求融入進去就好。但是程序員就是放蕩不羈愛自由。實際業務中的需求也是千奇百怪，所以我們在按照M

2020-07-01 21:35:49

集羣優化的核心思路（理論）

在網絡帶寬、磁盤IO是瓶頸的前提下能不使用IO 網絡就不使用，在必須使用的前提下，能少用就少用。所有的只要能夠減少網絡帶寬的開銷，只要能夠減少磁盤io的使

2020-07-08 02:22:00

Hadoop學習筆記_4：運行模式之僞分佈式模式

僞分佈式模式 Hadoop can also be run on a single-node in a pseudo-distributed mode where each Hadoop daemon runs in a se

编程小透明

2020-07-07 23:10:59

Java併發——Fork/Join框架原理解析

前言最近有個哥們問我一個實際項目的問題，大致如下：需要給一個目錄下的所有文件的路徑生成對應的MD5簽名。這個哥們首先想到的是採用遞歸的方式處理，這個思路是沒問題的，但是完全沒有必要自己造輪子。因爲Java已經提供了成熟的工具可以

2020-07-06 01:46:01

Left join --案例2

參考xx 訂單數據： package com.testMr; import java.io.IOException; import java.util.ArrayList; import java.util.LinkedList; i

2020-07-05 04:46:25

MapReduce優化----兩點瓶頸

mapreduce程序效率的瓶頸在於兩點：　　1：計算機性能　　2：I/O操作優化優化無非包括時間性能和空間性能兩個方面，存在一下常見的優化策略：　　1：輸入的文件儘量採用大文件　　　　衆多的小文件會導致map數量衆

2020-07-05 04:27:54

MapReduce優化----hadoop的管道思想

摘要：在Hadoop系統的實現中，Map端的輸出數據首先被溢寫入本地磁盤，當本機任務完成後通知JobTracker，然後Reduce端在得到 JobTracker的通知後會發出HTTP請求，利用複製的方式從相應的Map端拉回其 1 Had

2020-07-05 04:27:53

MapReduce優化----宏觀hadoop

Google提出了一個令人興奮的架構。MapReduce把任務分解成小任務，這些小任務可以在普通PC集羣上並行執行。這種架構的一種開源實現是yahoo!的hadoop。目前國內在用此架構的公司爲百度，淘寶，騰訊等，國外Amazon,Fa

2020-07-05 04:27:53

MapReduce優化----幾點根本設置

在編寫MapReduce應用程序時，除了最基本的Map模塊、Reduce模塊和驅動方法之外，用戶還可以通過一些技巧優化作業以提高其性能。對用戶來說，合理地在MapReduce作業中對程序進行優化，可以極大地提高作業的性能，減少作業執行時間

2020-07-05 04:27:53

hadoop命令行打jar包

javac -classpath "/home/lucktroy/Program/hadoop-0.20.204.0/hadoop-core-0.20.204.0.jar:/home/lucktroy/Program/hadoop-0.

2020-07-03 14:43:29

Hadoop源碼解析之Mapper數量計算公式

前言據說，自0.20.0版本開始，Hadoop同時提供了新舊兩套MapReduce API，並在後續版本中也同時支持這兩種API的使用。新版本MR API在舊的基礎進行了擴展，也制定了新的split計算方式。新版本MR API

2020-07-03 03:17:36

MapReduce規約淺談

MapReduce階段的kv變化 MapReduce是通過inputformat類讀取文件產生K1,V1，map階段讀取數據，產生K2,V2；而Reduce階段通過拉取map階段的數據進行處理產生新的K3,V3 在map階段讀取數

喜欢许静敏

2020-07-02 14:07:15

hadoop中查找某個字符串所在的hdfs位置

在/home/test/2017-08-23這個目錄中查找包含0001a794d86f0844的文件 1、shell for循環適用於hdfs容量比較小的的 for file in `hadoop fs -ls /home/t

2020-06-29 19:42:32

hadoop節點字符編碼導致的reduce重複記錄問題排查

1、背景組內一個同學反饋:reduce輸出目錄中竟然出現了2條重複的key，理論上同一個key只會有一條記錄。程序是通過mr跑的，代碼如下： mapreduce的邏輯很簡單，其實就是實現一個去重。原因是我們的上游日誌裏經常

2020-06-29 18:56:17

一、迭代式mapreduce（順序鏈接）

場景：一些複雜的任務難以用一次mapreduce處理完成，需要多次mapreduce才能完成任務。如在日誌解析系統中，會分爲拆分、session_id,、上下文三個job。在map/reduce迭代過程中，思想還是比較簡單，

巛巜---小于号

2020-06-29 13:45:40

24小時熱門文章

最新文章

最新評論文章