Hadoop官方案例WordCount簡單實現

原創

不二雄

2018-08-26 09:56

Hadoop官方案例WordCount簡單實現

前提準備

創建maven工程，導入依賴,注意版本修改與集羣的版本一致

<dependency>
        <groupId>org.apache.logging.log4j</groupId>
        <artifactId>log4j-core</artifactId>
        <version>2.9.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-common</artifactId>
        <version>2.7.2</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>2.7.2</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-hdfs</artifactId>
        <version>2.7.2</version>
    </dependency>

自定義Mapper類——MyMapper

package mapreduce;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * Mapper類
 */
public class MyMapper extends Mapper<LongWritable,Text,Text,LongWritable> {
    private final static LongWritable one = new LongWritable(1);
    private Text word = new Text();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString();
        String[] words = line.split(" ");
        for(String s :words){
            word.set(s);
            context.write(word, one);
        }
    }
}

自定義Reduce類——MyReduce

package mapreduce;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * Reduce類
 */
public class MyReduce extends Reducer<Text,LongWritable,Text,LongWritable>{
    private  LongWritable  longWritable= new LongWritable();
    @Override
    protected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {
        long sum  = 0;
        for(LongWritable v:values){
            sum+=v.get();
        }
        longWritable.set(sum);
        context.write(key,longWritable);
    }
}

自定義Runner類——MyRunner

package mapreduce;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

/**
 * 運行主類
 */
public class MyRunner implements Tool{
    private Configuration conf = null;
    public int run(String[] args) throws Exception {
        //設置配置類和任務名稱
        Job job = Job.getInstance(conf,"myJob");

        //設置運行主類
        job.setJarByClass(MyRunner.class);

        //設置Mapper類
        job.setMapperClass(MyMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(LongWritable.class);
        //設置Reducer類
        job.setReducerClass(MyReduce.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);

        //設置數據的輸入和輸出地址
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        //表示任務運行狀態
        return job.waitForCompletion(true)?0:1;
    }

    public void setConf(Configuration conf) {
        this.conf=conf;
    }

    public Configuration getConf() {
        return this.conf;
    }

    public static void main(String[] args) throws Exception {
        int state = ToolRunner.run(new MyRunner(), args);
        System.exit(state);
    }
}

運行準備——打jar包

mvn clean package

運行

#在hadoop的根目錄安裝下運行，並且把打好的jar也放入根目錄下。
$ bin/yarn jar hadoop-hdfs-1.0-SNAPSHOT.jar mapreduce.MyRunner /input /output

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Hadoop官方案例WordCount簡單實現

Hadoop官方案例WordCount簡單實現

前提準備

自定義Mapper類——MyMapper

自定義Reduce類——MyReduce

自定義Runner類——MyRunner

運行準備——打jar包

運行

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

Mybatis源碼解析之Exexutor

【數據結構】稀疏數組（Java實現）

Navicat導出指定查詢條件的數據

Hadoop集羣時間同步

SpringCloud學習前置知識

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結