單詞統計代碼--用java結合Hadoop去做，有源碼註釋

原創

2020-03-22 11:19

統計單詞統計，統計每個單詞的詞頻。更好地理解Hadoop框架的思想。

package mapreduce;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**
 * 詞頻統計
 */
public class WordCountApp {

    /**
     * Mapper：讀取源文件，進行單詞拆分
     */
    public static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable> {

        LongWritable one = new LongWritable(1);

        @Override
        protected void map(LongWritable key, Text value, Context context)
                throws IOException, InterruptedException {

            // 獲取文件一行的內容
            String line = value.toString();

            // 將行內容拆分成一個個單詞
            String[] words = line.split(" ");

            // 將單詞做成鍵值對輸出
            for(String word : words) {
                context.write(new Text(word), one);
            }

        }
    }

    /**
     * 對mapper的輸出進行合併統計
     */
    public static class MyReducer extends Reducer<Text, LongWritable, Text, LongWritable> {

        @Override
        protected void reduce(Text key, Iterable<LongWritable> values, Context context)
                throws IOException, InterruptedException {
            long sum = 0;
            for(LongWritable value : values){
                // 將當前key對應的多個values進行累加
                sum += value.get();
            }

            // 將統計完成的結果按照(text, long)鍵值對輸出
            context.write(key, new LongWritable(sum));

        }
    }

    public static void main(String[] args) throws Exception{
        // 創建配置實例
        Configuration configuration = new Configuration();

        // 創建一個job
        Job job = Job.getInstance(configuration, "wordcount");
        // 設置該job的處理類
        job.setJarByClass(WordCountApp.class);

        // 設置輸入文件的路徑
        FileInputFormat.setInputPaths(job, new Path(args[0]));

        // 設置mapper的相關參數
        job.setMapperClass(MyMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(LongWritable.class);

        // 設置reducer的相關參數
        job.setReducerClass(MyReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);

        // 設置處理的結果文件輸出目錄
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        // 提交給yarn運行，等待運行完成之後退出
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

單詞統計代碼--用java結合Hadoop去做，有源碼註釋

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

sql求連續值問題

cs01 CSS Syntax

sql server sp_executesql 中使用表變量進行查詢

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

[MASM拾遺]Offset僞指令

h30 HTML Layout Elements

瞭解顯卡

一款基於C#開發的通訊調試工具（支持Modbus RTU、MQTT調試）

單詞統計代碼--用java結合Hadoop去做，有源碼註釋

maven管理工具

java語言幾十行輕鬆搞定二維碼程序

java網絡編程之套接字（Socket編程），幾十行代碼實現客戶端與服務端（此博客包含源碼）

三分鐘解決手撕某上市公司筆試題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結