MapReduce 的數據類型
Hadoop 雖然是由java實現的,但MapReduce的輸入輸出並不支持對java常用的數據類型(如byte,int,long,String等)的直接操作,而是通過一個接口org.apache.hadoop.io.Writable實現一批間接的數據類型來取代之,比如BooleanWritable,IntWritable,ByteWritable,Text等等,另外,程序員還可以因需自行實現某種Writable類型。
採用Writable類型的理由簡單而明顯:使數據可轉化爲類型無關的數據流或反之,便於進行網絡通信,類似的行爲在很多遠程調用(RPC)框架中十分常見。
Writable接口主要包含兩個方法:
void write(DataOutput out)和void readFields(DataInput in)
從名稱上即可很容易理解其含義與作用,具體解釋請參閱hadoop的API文檔。
MapReduce的兩個版本
Hadoop目前實現了兩個MapReduce版本,一個是Package org.apache.hadoop.mapred,另一個是Packageorg.apache.hadoop.mapreduce,前者爲Hadoop早期的實現,後者是近期發佈的版本中的新成員。經本人的考察,兩者在使用上並不兼容(雖然在底層上他們共用了不少的代碼)在編寫自己的MaReduce程序時,二者只能選其一,不能混合。
本人在閱讀了一些範例以及自己所作的編程嘗試,認爲org.apache.hadoop.mapreduce比org.apache.hadoop.mapred優越得多,思路更簡明清晰,更易於掌握,代碼複雜度也有所下降。
範例分析1:WordCount
幾乎所有學習Hadoop的文章都是從這個範例開始着手的,這個範例既簡單易理解又具有代表性,而且目前下載的Hadoop包的範例中,只有這個例子是採用org.apache.hadoop.mapreduce包的,其餘均採用較老版本的org.apache.hadoop.mapred包,下面就通過代碼來對MapReduce的編程基本思路作一些分析:
//WordCount.java:
package org.apache.hadoop.examples;
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
public class WordCount {
//這就是傳說中那神奇的MapReduce中的Mapper<KEYIN,VALUEIN,KEYOUT,VALUEOUT>入參、出參的類型並不強求一致,夠自由。
public static class TokenizerMapper
extends Mapper<Object, Text, Text, IntWritable>{
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
//只需要實現一個函數,夠省心。
public void map(Object key, Text value, Context context
) throws IOException, InterruptedException {
//這個函數的輸入<key,value>對中的key用不上,value是某文本文件中的某一行,這說明了一個問題,key或者value並不是必需的,可以缺少其中一樣,具體看你需要map爲你做什麼。
StringTokenizer itr = new StringTokenizer(value.toString());//把一行文字分拆爲詞彙迭代。
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
//context有很多用途,不過主要還是爲了收集輸出的<key,value>對。
context.write(word, one);
}
}
}
//這個Reduce的目的很簡單,就是把key相同的<key,value>對集合在一起,統計它們出現的次數。
public static class IntSumReducer
extends Reducer<Text,IntWritable,Text,IntWritable> {
private IntWritable result = new IntWritable();
public void reduce(Text key, Iterable<IntWritable> values,
Context context
) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
result.set(sum);
context.write(key, result);
}
}
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
if (otherArgs.length != 2) {
System.err.println("Usage: wordcount <in> <out>");
System.exit(2);
}
//最能表達開發者的意圖的就是這個Job了,對Job的設置可以控制MapReduce的行爲,同時又不必考慮分佈計算的複雜問題。
Job job = new Job(conf, "word count");
job.setJarByClass(WordCount.class);
job.setMapperClass(TokenizerMapper.class);
job.setCombinerClass(IntSumReducer.class);
job.setReducerClass(IntSumReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}
理論上,開發者可以實現若干的Mapper類和若干的Reducer類隨意打包到任意的jar文件中,然後通過job.setJarByClass()、job.setMapperClass()、job.setReducerClass()使job加載合適的Mapper與Reducer來達到目的。
以上代碼看起來是很簡單,條理也清晰,然而問題來了,數據是怎麼輸入到Mapper中的,又是如何從Reducer裏輸出來的呢?
看看文檔中有關Job的內容,原來Mapper的輸入是由public void setInputFormatClass()來決定的,範例中之所以沒有使用這個設置是因爲Hadoop默認情況下設置了org.apache.hadoop.mapreduce.lib.input. TextInputFormat這個類,而Reducer的輸出是由public void setOutputFormatClass()來決定的,默認情況下設置了org.apache.hadoop.mapreduce.lib.output.TextOutputFormat這個類,範例中有兩行代碼
FileInputFormat.addInputPath(job,new Path(otherArgs[0]));
FileOutputFormat.setOutputPath(job, newPath(otherArgs[1]));
是設置輸入文件與輸出文件的路徑的,job就是通過繼承自FileInputFormat的TextInputFormat讀入文件數據,交給Mapper去處理,然後把Reducer的輸出交給繼承自FileOutputFormat的TextOutputFormat類來寫到輸出文件中。
研讀了FileInputFormat.java,InputFormat.java,FileOutputFormat.java,OutputFormat,TextInputFormat.java,TextOutputFormat.java的代碼之後,可以摸清Hadoop對job的數據輸入、輸出細節:
由setInputFormatClass()指定的類創建實例,首先由實例中的getSplits()將數據分爲若干片段(splits),然後將這些splits分發給各個TastTracker,由這些TaskTracker分別啓用Mapper去處理,開發者可以通過編寫getSplits()實現自己的數據輸入途徑以及如何將數據進行分割,範例中每個split只包含了三個內容:文件名、起始位置、長度,這是一種聰明的做法,因爲split是需要通過網絡發送給各個TastTracker的,傳送文件名、起始位置、長度這三個信息比傳送文件內容要節省網絡的帶寬消耗。
TaskTracker在得到split之後首先做的是將split進一步分解爲<key,value>對,然後爲每一對<key,value>調用一次Mapper中的map方法,範例中通過org.apache.hadoop.mapreduce.lib.input.LineRecordReader根據split的文件名、起始位置和長度來讀取文本文件數據塊,然後每行文本當做一個<key,value>對來調用map()。
Reducer的輸出由setOutputFormatClass ()指定的類創建實例,這個實例通過一個org.apache.hadoop.mapreduce.RecordWriter來進行實質的輸出動作,範例中使用的是LineRecordWriter類。
MapReduce的細節干預
上例中展示了MapReduce應用編程的基本思路與內容,當然Hadoop提供的遠不止這些,通過更細緻的設置,可以讓Hadoop的表現更佳,上例中有一行:job.setCombinerClass(IntSumReducer.class);居然和job.setReducerClass(IntSumReducer.class);的參數是一樣的,這又是幹什麼用的呢?
參看文檔的解釋:map得到中間結果之後,可以對中間結果先做 combine,即將中間結果中有相同 key的 <key, value> 對合併成一對。combine 的過程與 Reduce 的過程類似,很多情況下就可以直接使用 Reduce 函數,但 combine 是作爲 Map 任務的一部分,在執行完 Map 函數後緊接着執行的。Combine 能夠減少中間結果中 <key, value> 對的數目,從而減少網絡流量。
public void setSortComparatorClass():如果job設置了這個項,程序可以實現一個org.apache.hadoop.io.RawComparator類更細緻地控制如何對中間結果進行排序處理。
public void setPartitionerClass():如果job設置了這個項,程序可以實現一個org.apache.hadoop.mapreduce.Partitioner類更細緻地控制如何把中間結果分派給多個Reducer來進行後續的處理。
public void setGroupingComparatorClass():默認情況下,每個Reducer實例處理key相同的value集合,如果job設置了這個項,程序可以實現一個org.apache.hadoop.io.RawComparator類把多個key相應的value組合在一起交給同一個Reducer實例來處理。
Hadoop的org.apache.hadoop.mapreduce.InputFormat和org.apache.hadoop.mapreduce.OutputFormat類都是抽象類,在現有的Hadoop實現中,派生出了若干輸入輸出類,但都具有一個共同的特點:以文件爲輸入輸出對象。Hadoop的examples代碼集中全部都是以磁盤文件作爲輸入源以及輸出目標,如果我們希望像大多數普通的程序那樣把內存數據作爲輸入源和輸出目標,Hadoop建議採用Stream或者Pipe的方法,然後這兩種方法都只適合於操作文本數據(包括中間結果),假如是任意的二進制數據,這兩種方法都不適用,因此,我寫了一個嘗試將內存數據直接作爲MapReduce傳入傳出參數的項目。(待續)