文章目录
一、 MapReduce定义
MapReduce 是一个分布式运算程序的编程框架, 是用户开发 ‘基于Hadoop的数据分析应用’ 的核心框架。
MapReduce 核心功能是将 用户编写的业务逻辑代码 和 自带默认组件 整合成一个完成的 分布式运算程序, 并发运行在一个 Hadoop 集群上。
二、 MapReduce 优缺点
2.1 优点
-
MapReduce 易于编程
它简单的实现了一些接口, 就可以完成一个分布式程序, 这个分布式程序可以分布到大量廉价的 PC机器上运行。 也就是说你写一个分布式程序, 跟写一个简单的串行程序是一模一样的。 就是因为这个特点使得 MapReduce 编程变得非常流行 -
良好的扩展性
当你的计算资源不能得到满足的时候, 你可以通过简单的增加机器 来扩展它的计算能力。 -
高容错性
MapReduce 设计的初衷就是使程序能够部署到廉价的 PC 机器上, 这就要求它具有很高的容错性。 比如 其中一台机器挂了,它可以把上面的计算任务转移到另一个节点上运行, 不至于这个任务运行失败, 而且这个过程不需要人工参与, 而完全是由 Hadoop内部完成的。 -
适合 PB级以上海量数据的离线处理
可以实现上千台服务器集群并发工作, 提供数据处理能力。
2.2 缺点
- 不擅长实时计算
MapReduce 无法像 MySQL那样, 在毫秒或者秒级内返回结果。 - 不擅长流式计算
流式计算的输入数据是动态的, 而 MapReduce 的输入数据是静态的, 不能动态变化。 这是因为 MapReduce自身的设计特点决定了数据源必须是静态的。 - 不擅长DAG(有向图) 计算
多个应用程序存在依赖关系, 后一个应用程序的输入为前一个的输出。 在这种情况下, MapReduce 并不是不能做, 而是使用后, 每个 MapReduce 作业的输出结果都会写入到磁盘中, 会造成大量的磁盘IO, 导致性能非常低下。
三、 MapReduce 核心思想
- 分布式的运算程序往往需要分成至少2个阶段。
- 第一个阶段的MapTask并发实例,完全并行运行,互不相干。
- 第二个阶段的ReduceTask并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。
- MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段,如果用户的业务逻辑非常复杂,那就只能多个MapReduce程序,串行运行。
总结:分析WordCount数据流走向深入理解MapReduce核心思想。
四、MapReduce 进程
一个完整的 MapReduce 程序在分布式运行时有三类实例进程:
- MrAPPMaster: 负责整个程序的过程调度及状态协调;
- MapTask:负责Map 阶段的整个数据处理流程;
- ReduceTask:负责Reduce 阶段的整个数据处理流程。
五、官方 WordCount 源码
采用反编译工具反编译源码,发现WordCount案例有Map类、Reduce类和驱动类。且数据的类型是Hadoop自身封装的序列化类型
六、常用的数据序列化类型
Java类型 | Hadoop Writable类型 |
---|---|
Boolean | BooleanWritable |
Byte | ByteWritable |
Int | IntWritable |
Float | FloatWritable |
Long | LongWritable |
Double | DoubleWritable |
String | Text |
Map | MapWritable |
Array | ArrayWritable |
七、 MapReduce编程规范
用户编写的程序分成三个部分:Mapper、Reducer和Driver。
- Mapper 阶段
① 用户自定义的 mapper 要继承自己的父类
② Mapper 的输入数据是 KV对的形式(KV 的类型可自定义)
③ Mapper 中的业务逻辑写在 map() 方法中
④ Mapper 的输出数据是 KV 对的形式 (KV 的类型可自定义)
⑤ map() 方法 (mapTask进程) 对每个<K,V> 调用一次 - Reduce 阶段
① 用户自定义的 Reduce 要继承自己的父类
② Reduce 的输入数据类型对应 Mapper 的输出数据类型, 也是 KV 键值对
③ Reduce 的业务逻辑写在 reduce() 方法中
④ ReduceTask 进程对每一组相同的 k的 <k,v> 组调用一次 reduce() 方法 - Driver 阶段
相当于 YARN 集群的客户端, 用于提交我们整个程序要 YARN 集群, 提交的是封装了 MapReduce 程序相关运行参数的job对象
八、 WordCount 案例实操
8.1 需求
在给定的文本文件中统计输出每一个单词出现的总次数
-
输入数据(wordCount.txt)
kino Like zhu Hadoop hi hi hi Word Count
-
期望输出数据
Count 1 Hadoop 1 Like 1 Word 1 hi 3 kino 1 zhu 1
8.2 需求分析
按照 MapReduce 编程规范, 分别编写 Mapper、Reducer、Driver
8.3 准备环境
-
创建 Maven 工程
-
添加 pom.xml 依赖
<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version> </dependency> <dependency> <groupId>org.apache.logging.log4j</groupId> <artifactId>log4j-core</artifactId> <version>2.8.2</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.7.2</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.7.2</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-hdfs</artifactId> <version>2.7.2</version> </dependency> <dependency> <groupId>jdk.tools</groupId> <artifactId>jdk.tools</artifactId> <version>1.8</version> <scope>system</scope> <systemPath>${JAVA_HOME}/lib/tools.jar</systemPath> </dependency> </dependencies>
-
在项目的 src/main/resources 目录下, 创建名为 “log4j.properties” 的文件并填入一下内容
log4j.rootLogger=INFO, stdout log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n log4j.appender.logfile=org.apache.log4j.FileAppender log4j.appender.logfile.File=target/spring.log log4j.appender.logfile.layout=org.apache.log4j.PatternLayout log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n
-
编写程序
-
编写 mapper 类
package com.kino.mapreduce.wordcount; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException; /** * Map 阶段 * * 需要继承 Mapper, 并重写 map方法, 完成自定义的 Mapper * * KEYIN: 输入的 key 类型, * VALUEIN: 输入的 Value 类型, * KEYOUT: 输出的 key 类型, * VALUEOUT: 输出的 Value 类型, */ public class WordcountMapper extends Mapper<LongWritable, Text, Text, IntWritable> { Text k = new Text(); IntWritable v = new IntWritable(1); /** * * @param key: 每一行的 Key * @param value: 每一行的 value * @param context: 全局上下文对象 * @throws IOException * @throws InterruptedException */ @Override protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { //1. 获取一行数据 String line = value.toString(); //2. 切割数据 String[] words = line.split(" "); for (String word : words) { k.set(word); context.write(k, v); } } }
-
编写 Reducer 类
package com.kino.mapreduce.wordcount; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Reducer; import java.io.IOException; /** * Reduce 阶段 * * 通过继承 Reduce, 重写 reduce 方法, 完成自定义的Reducer */ public class WordcountReducer extends Reducer<Text, IntWritable, Text, IntWritable> { IntWritable v = new IntWritable(); @Override protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { //1. 将相同 Key 的value 进行汇总 int sum = 0; for (IntWritable value : values) { sum += value.get(); } //2. 写出 v.set(sum); context.write(key, v); } }
-
编写 Driver 驱动类
package com.kino.mapreduce.wordcount; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import java.io.IOException; /** * Created by kino on 2019/7/22 to WorkSpace */ public class WordcountDriver { public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException { Configuration conf = new Configuration(); //1. 获取 Job 对象 一个 MapReduce 程序实际上就是一个 Job Job job = Job.getInstance(conf); //2. 关联 jar job.setJarByClass(WordcountDriver.class); //3. 关联当前 Job 对应的 Mapper 和 Reduce job.setMapperClass(WordcountMapper.class); job.setReducerClass(WordcountReducer.class); //4. 设置 Mapper 输出的 Key 和 Value 类型 job.setMapOutputKeyClass(Text.class); job.setMapOutputValueClass(IntWritable.class); //5. 设置最终输出的 Key 和 Value 类型 job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); //6. 设置文件的输入 和 结果的输出位置 FileInputFormat.setInputPaths(job, new Path("D:\\wordCount.txt")); FileOutputFormat.setOutputPath(job, new Path("D:\\output")); //7. 提交 Job boolean b = job.waitForCompletion(true); System.exit(b ? 0 : 1); } }
-
运行测试, 最终将在 FileOutputFormat.setOutputPath 指定的路径下生成 4 个文件
其中 part-r-00000 就是程序输出的结果
-