初探map/reduce原理

原創

2018-08-29 22:37

下面的代碼來自於hadoop官網，但是那個例子很繁瑣，我對此作了簡化

運行下面代碼必須在linux系統上，並且已經成功部署安裝hadoop


package com.hadoop.test3;

import java.io.IOException;
import java.util.*;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapred.*;
import org.apache.hadoop.util.*;

public class WordCount {
	public static class Map extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable>{
		private final static IntWritable one=new IntWritable(1);
		private Text word=new Text();

		public void map(LongWritable key,Text value,OutputCollector<Text, IntWritable>output,Reporter reporter)throws IOException{
			String line=value.toString();
			StringTokenizer tokenizer=new StringTokenizer(line);
			while(tokenizer.hasMoreElements()){
				word.set(tokenizer.nextToken());
				output.collect(word,one);
			}
		}
	}

	public static class Reduce extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable>{
		public void reduce(Text key,Iterator<IntWritable>values,OutputCollector<Text, IntWritable>output,Reporter reporter)throws IOException{
			int sum=0;
			while(values.hasNext()){
				sum+=values.next().get();
			}
			output.collect(key, new IntWritable(sum));
		}
	}

	public static void main(String[] args) throws Exception{
		JobConf conf=new JobConf(WordCount.class);
		conf.setJobName("wordcount");

		conf.setOutputKeyClass(Text.class);
		conf.setOutputValueClass(IntWritable.class);

		conf.setMapperClass(Map.class);
		conf.setCombinerClass(Reduce.class);
		conf.setReducerClass(Reduce.class);

		conf.setInputFormat(TextInputFormat.class);
		conf.setOutputFormat(TextOutputFormat.class);

		FileInputFormat.setInputPaths(conf, new Path("/home/root/test/input"));
		FileOutputFormat.setOutputPath(conf, new Path("/home/root/test/output"));

		JobClient.runJob(conf);
	}
}

假設：

•/home/root/test/input - 是HDFS中的輸入路徑
•/home/root/test/output - 是HDFS中的輸出路徑

1.創建 /home/root/test/input
2.在此目錄下創建三個文本文件,分別命名爲：file01,file02,file03
file01輸入內容"Hello World Bye World"
file02輸入內容"Hello Hadoop Goodbye Hadoop"
file03輸入內容"hello Hadoop Goodbye hadoop"

3.運行程序

[b]運行結果爲[/b]


Bye      1
Goodbye  2
Hadoop   3
Hello    2
World    2
hadoop   1
hello    1

從運行結果可以看出 mapreduce是區分大小寫的，而且僅僅是以空格來劃分字符的

[color=red]在運行程序中可能會報"org.apache.hadoop.mapred.FileAlreadyExistsException"那是因爲程序會自動創建輸出目錄，如果此目錄已存在就會報此異常，所以運行前注意先刪除"/home/root/test/output"目錄[/color]

下面我們來看看原理

Mapper(14-26行)中的map方法通過指定的 TextInputFormat一次處理一行。然後，它通過StringTokenizer 以空格爲分隔符將一行切分爲若干tokens，之後，輸出< <word>, 1> 形式的鍵值對。

對於示例中的第一個輸入，map輸出是：
< Hello, 1>
< World, 1>
< Bye, 1>
< World, 1>

第二個輸入，map輸出是：
< Hello, 1>
< Hadoop, 1>
< Goodbye, 1>
< Hadoop, 1>

第三個輸入，map輸出是：
< hello, 1>
< Hadoop, 1>
< Goodbye, 1>
< hadoop, 1>

WordCount還指定了一個combiner 因此，每次map運行之後，會對輸出按照key進行排序，然後把輸出傳遞給本地的combiner（按照作業的配置與Reducer一樣），進行本地聚合。

第一個map的輸出是：
< Bye, 1>
< Hello, 1>
< World, 2>

第二個map的輸出是：
< Goodbye, 1>
< Hadoop, 2>
< Hello, 1>

第三個map的輸出是：
< Goodbye, 1>
< hadoop, 1>
< Hadoop, 1>
< hello, 1>

Reducer中的reduce方法僅是將每個key（本例中就是單詞）出現的次數求和。

因此這個作業的輸出就是：
< Bye, 1>
< Goodbye, 2>
< Hadoop, 3>
< Hello, 2>
< World, 2>
< hadoop, 1>
< hello, 1>

代碼中的run方法中指定了作業的幾個方面，例如：通過命令行傳遞過來的輸入/輸出路徑、key/value的類型、輸入/輸出的格式等等JobConf中的配置信息。隨後程序調用了JobClient.runJob來提交作業並且監控它的執行。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

初探map/reduce原理

linux(ubuntu) 之間互掛磁盤以及 linux掛載windows磁盤

java 線程個人總結

Heritrix源碼分析(十三) Heritrix的控制中心(大腦)CrawlController(二)

爬蟲基本原理及概念

mysql locked 解決方案

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結