windows下IDEA本地运行MapReduce

原創

2020-06-26 13:26

github下载对应版本的hadoop.dll 和 winutils.exe
下载地址
配置环境变量
步骤1下载的东西放到这个目录里面，

在Path中添加如下
IDEA创建Maven项目
pom文件

<properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <maven.compiler.source>1.8</maven.compiler.source>
    <maven.compiler.target>1.8</maven.compiler.target>
    <hadoop.version>2.6.0-cdh5.15.1</hadoop.version>
  </properties>

  <repositories>
    <repository>
      <id>cloudera</id>
      <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
    </repository>
  </repositories>

  <dependencies>
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-client</artifactId>
      <version>${hadoop.version}</version>
    </dependency>
	<dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>4.11</version>
      <scope>test</scope>
    </dependency>
  </dependencies>

找到对应hadoop版本的源码

# 找到这个类，修改
org.apache.hadoop.io.nativeio.NativeIO

然后将这个类加到你的项目中，如下

5. 配置JVM参数

6. 编写WordCount

package www.immoc.hadoop.mapreduce.wc;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.NLineInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import www.immoc.hadoop.utils.FileUtils;

import java.io.IOException;

public class WordCountApp {
    public static void main(String[] args) throws Exception{
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        String inputPath = "data/wc.data";
//        String inputPath = args[0];
        String outputPath = "out/";
//        String outputPath = args[1];

        FileUtils.deleteTarget(outputPath, conf);

        job.setJarByClass(WordCountApp.class);

        job.setMapperClass(myMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        job.setReducerClass(myReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.setInputPaths(job, new Path(inputPath));
        FileOutputFormat.setOutputPath(job, new Path(outputPath));

        // 按行输入，每行一个map
        job.setInputFormatClass(NLineInputFormat.class);
        NLineInputFormat.setNumLinesPerSplit(job, 3);

        boolean result = job.waitForCompletion(true);
        System.out.println(result ? 0 : 1);
    }

    public static class myMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            String[] datas = value.toString().split(",");

            for (String data : datas) {
                context.write(new Text(data), new IntWritable(1));
            }
        }
    }
    
    public static class myReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

        @Override
        protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            int count = 0;

            for (IntWritable value : values) {
                count += value.get();
            }

            context.write(key, new IntWritable(count));
        }
    }
}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

windows下IDEA本地运行MapReduce

從源碼分析spark-submit作業提交流程（2.4.4）

Linux文本搜索（三）之 awk

mysqlbinlog: [ERROR] unknown variable 'default-character-set=utf8mb4'

HBase 之Rowkey設計

Hadoop支持lzo壓縮且支持分片

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結