向你老婆解釋清楚MapReduce

文章轉載自「開發者圓桌」一個關於開發者入門、進階、踩坑的微信公衆號

乾巴巴的定義

MapReduce是一種編程模型，用於大規模數據集（大於1TB）的並行運算。概念"Map（映射）"和"Reduce（歸約）"，是它們的主要思想，都是從函數式編程語言裏借來的，還有從矢量編程語言裏借來的特性。它極大地方便了編程人員在不會分佈式並行編程的情況下，將自己的程序運行在分佈式系統上。

當前的軟件實現是指定一個Map（映射）函數，用來把一組鍵值對映射成一組新的鍵值對，指定併發的Reduce（歸約）函數，用來保證所有映射的鍵值對中的每一個共享相同的鍵組。

形象的解釋1：統計圖書

我們要數圖書館中的所有書。你數1號書架，我數2號書架，這就是“Map”。我們人越多，數的就更快。

現在我們到一起，把所有人的統計數加在一起，這就是“Reduce”。

形象的解釋2：統計圖形

我們來看一個關於圖形統計的MapReduce流程，兩個人負責把左側的一堆圖形，按照形狀和顏色歸類統計各自的數量。

實戰：計算平均成績的Java Hadoop MapReduce程序

說了那麼多，你老婆可能已經理解了MR，但是你可能還無法和程序代碼聯繫起來，下面的這個小例子可以幫助到你，類似的樣例網上很多，去搜索吧，這裏簡單分析一下關鍵代碼，通過標註的name和Text key，你需要理解什麼是MapReduce中的key以及key的作用。

數據環境：位於Hadoop中的chinese.txt、english.txt、math.txt文件分別記錄了所有學生的語文、英語、數學成績，文件內容格式爲，姓名分數，中間以空格分隔。

public class Score {

public static class ScoreMap extends

Mapper<LongWritable, Text, Text, IntWritable> {

// 實現map函數

public void map(LongWritable key, Text value, Context context)

throws IOException, InterruptedException {

// 將輸入的純文本文件的數據轉化成String

String line = value.toString();

// 將輸入的數據首先按行進行分割

StringTokenizer tokenizerArticle = new StringTokenizer(line, "\n");

// 分別對每一行進行處理

while (tokenizerArticle.hasMoreElements()) {

// 每行按空格劃分

StringTokenizer tokenizerLine = new StringTokenizer(tokenizerArticle.nextToken());

String strName = tokenizerLine.nextToken();// 學生姓名部分

String strScore = tokenizerLine.nextToken();// 成績部分

Text name = new Text(strName);

int scoreInt = Integer.parseInt(strScore);

// 輸出姓名和成績，以name做爲key對分數歸類

context.write(name, new IntWritable(scoreInt));

}

public static class ScoreReduce extends

Reducer<Text, IntWritable, Text, IntWritable> {

// 實現reduce函數

public void reduce(Text key, Iterable<IntWritable> values,

Context context) throws IOException, InterruptedException {

int sum = 0;

int count = 0;

Iterator<IntWritable> iterator = values.iterator();

while (iterator.hasNext()) {

sum += iterator.next().get();// 計算總分

count++;// 統計總的科目數

}

int average = (int) sum / count;// 計算平均成績

context.write(key, new IntWritable(average));

}

public static void main(String[] args) throws Exception {

...

// 設置Map和Reduce處理類

job.setMapperClass(ScoreMap.class);

job.setReducerClass(ScoreReduce.class);

...

}

最後的話

如果你要進一步瞭解MR，最好的方法就是從頭成功運行一個hello world程序，通過一次成功的實踐，你會發現MR這東西實在太簡單了，否則說明你還沒有成功運行過第一個小程序。實踐！實踐！實踐！

向你老婆解釋清楚MapReduce

杭州的 IT 崩盤了麼？

開源高性能結構化日誌模塊NanoLog

Python 潮流週刊#55：分享 9 個高質量的技術類信息源！

Azure Virtual Network (22) 多訂閱使用Azure DNS解析問題 Windows Azure Platform 系列文章目錄

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

數據庫設計三範式

C/C++學習路線圖

Python學習路線圖

Java學習路線圖

PHP學習路線圖

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結