MapReduce中的InputFormat（1）概述

原創

2020-06-09 19:05

1 概念
InputFormat用於描述輸入數據的格式，提供以下兩個功能：
A、數據切分：按照某種策略將輸入的數據切分成若干split，以便確定Map Task個數，以及對應的Split。
B、提供數據：爲Mapper提供輸入數據，對於給定split，能將其解析爲<k,v>格式。即<K1,V1>。

2 新老版本

老版本：package org.apache.hadoop.mapred

public interface InputFormat<K, V> {
  InputSplit[] getSplits(JobConf job, int numSplits) throws IOException;
  RecordReader<K, V> getRecordReader(InputSplit split,JobConf job, Reporter reporter)  throws IOException;
}

新版本：package org.apache.hadoop.mapreduce

public abstract class InputFormat<K, V> {
  public abstract List<InputSplit> getSplits(JobContext context) throws IOException, InterruptedException;  
  public abstract RecordReader<K,V> createRecordReader(InputSplit split,
		TaskAttemptContext context) throws IOException,InterruptedException;
}

3 解析
3.1 設計思想
所有基於文件的InputFormat的實現基類都是FileInputFormat。
針對文本格式：TextInputFormat、KeyValueTextInputFormat、NLineInputFormat
針對二進制格式：SequenceFileInputFormat

基於文件的FileInputFormat的設計思想是：

A 由公共基類FileInputFormat採用統一的方法，對文件進行切分成InputSplit（如按照統一的大小）。getSplit方法。
B 由各個派生類根據自己的需求，解析InputSplit。即各個子類實現的createRecordReader方法。

3.2 getSplits

主要完成數據切分的功能，它會嘗試着將輸入數據切分爲numSplit個inputSplit。有以下兩個特點：
A、邏輯分片：inputSplit只記錄分片的元信息。
B、可序列化：爲了進程間通信。
在Hadoop1.X在JobClient的中writeNewSplits方法使用了getSplits。

// 通過反射獲得設置的inputFormat.class的inputFormat對象 
InputFormat<?, ?> input = ReflectionUtils.newInstance(job.getInputFormatClass(), conf);
// 獲取邏輯分片信息
List<InputSplit> splits = input.getSplits(job);

3.3 getRecordReader
該方法返回一個RecordReader對象，它實現了類似迭代器的功能，將某個split解析爲一個個<k,v>對。該類需要考慮以下兩點：
A、定位邊界記錄：爲了識別一條完整的記錄，記錄之間要加上一些同步標誌。
對於TextInputFormat：同步標識就是換行符。
對於SequenceFileInputFormat：每隔離若干條記錄，會添加固定長度同步字符串。
B、解析<k,v>：定位到一條記錄後，需要將該記錄分解爲key和value兩部分。
對於TextInputFormat：key就是該行在文件的中的偏移量，value就是該行的內容。
對於SequenceFileInputFormat：每條記錄的格式爲[record length] [key length] [key] [value]。
前兩個字段分別是整條記錄的長度和key的長度，均爲4個字節，後半部分分別是key和value的內容。知道每條記錄的格式後，很容易解析。

整理自董西成老師的《Hadoop技術內幕》，並閱讀源碼小有體會。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

MapReduce中的InputFormat（1）概述

DAPPER 事務 TRANSACTION

Java中線程的創建方式

「DUBBO系列」線程池打滿問題分析方法與實例

Hive中的複雜數據類型

Hadoop中的序列化

Hadoop中的壓縮（2） Mapper中使用壓縮

Hadoop1.X中使用RPC

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結