win10+IDEA+Maven wordcount入門和日誌分析

新建項目

file-newproject-選擇maven直接next
groupId ArtifactId自己填

這樣就新建好了一個空的項目，彆着急，還有一個地方可能需要修改。點擊file打開setting，定位到Build, Execution, Deployment->Compiler->Java Compiler，將WordCount的Target bytecode version修改爲1.8。

配置依賴

    <repositories>
        <repository>
            <id>apache</id>
            <url>http://maven.apache.org</url>
        </repository>
    </repositories>

    <dependencies>
        <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-core -->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-core</artifactId>
            <version>1.2.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.6.1</version>
        </dependency>
    </dependencies>

添加後，import changes如下

編寫wordcount

在src->main->java下新建一個WordCount類，添加內容

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.util.StringTokenizer;

public class WordCount {
    // 自定義的 TokenizerMapper 類將繼承自 Mapper 類，以實現相關的接口和方法
    // 在 Map 階段將會執行其中的作業邏輯
    public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {

        // 在 MapReduce 框架中，基本數據類型都封裝成了 Writable 類型
        // 因此 int 類型對應於 IntWritable 類型，在初始化時將其聲明爲靜態常量是爲了方便地使用 1 的值
        private final static IntWritable one = new IntWritable(1);
        // 聲明一個 Text 類型的私有成員變量 word
        private Text word = new Text();
        // map 方法的寫法是標準格式，可以參考官方文檔理解各個參數的含義
        public void map(Object key, Text value, Context context) throws IOException,InterruptedException{

            // 從 value 中讀入數據並按照空格分隔
            StringTokenizer itr = new StringTokenizer(value.toString());

            // 將每個分隔形成的單詞組裝成鍵值對
            while (itr.hasMoreTokens()){
                word.set(itr.nextToken());
                context.write(word,one);
            }
        }

    }

    // 自定義的 IntSumReducer 類將繼承自 Reducer 類，以實現相關的接口和方法
    // 在 Reduce 階段將會執行其中的作業邏輯

    public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable>{
        // 聲明一個 IntWritable 類型值用於存放累加結果
        private IntWritable result = new IntWritable();

        // reduce 方法的寫法也是參考官方文檔進行的，相關的參數可以查閱官方文檔進行理解
        public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            // 進行值的累加操作
            int sum = 0;
            for (IntWritable val : values) {
                sum += val.get();
            }
            // 將 int 基本類型通過 set 方法賦予到結果中
            result.set(sum);
            // 寫入上下文中進行保存
            context.write(key, result);
        }

    }

    // main 方法是整個程序的入口，在這裏涉及到作業（Job）的各項設置
    public static void main(String[] args) throws Exception{
        // 程序的第一步是聲明並初始化 Configuration 對象用於設置作業的相關運行參數
        Configuration conf = new Configuration();

        // 設置作業的配置參數和名稱
        Job job = Job.getInstance(conf, "word count");
        // 將 WordCount 類作爲運行的入口
        job.setJarByClass(WordCount.class);

        // 通過 setMapperClass 方法告訴集羣應當在 map 階段執行哪些邏輯
        job.setMapperClass(TokenizerMapper.class);
        // 通過 setCombinerClass 方法告訴集羣應當在 combine 階段執行哪些邏輯，此處複用了 Reducer 的邏輯，用於在本地進行部分結果的累加
        // 這個步驟不是必須的
        job.setCombinerClass(IntSumReducer.class);
        // 通過 setReducerClass 方法告訴集羣應當在 combine 階段執行哪些邏輯
        job.setReducerClass(IntSumReducer.class);
        // 設置輸出結果中鍵的數據類型
        job.setOutputKeyClass(Text.class);
        // 設置輸出結果中值的數據類型
        job.setOutputValueClass(IntWritable.class);
        // 利用 main 函數的第 1 個輸入參數獲取輸入數據的路徑
        FileInputFormat.addInputPath(job, new Path(args[0]));
        // 利用 main 函數的第 2 個輸入參數獲取輸出數據的路徑
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        // job.waitForCompletion(true) 相當於開啓執行任務的開關，執行到此處時一個 MapReduce 應用纔會真正地開始計算
        // 使用 System.exit 方法來告知程序運行的狀態
        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }
}

配置輸入文件

WordCount對輸入文件字符進行計數，輸出計數的結果。首先需要配置輸入路徑，這裏在WordCount下（src同級目錄）新建一個文件夾input，並添加一個或多個文本文件到input中，作爲示例。比如如下內容

點擊File->Project Structure，在彈出來的對話框中選擇Modules項，點擊Sources選項卡，將Language level調整爲8

配置運行參數

在Intellij菜單欄中選擇Run->Edit Configurations，在彈出來的對話框中點擊+，新建一個Application配置。配置Main class爲WordCount（可以點擊右邊的…選擇），Program arguments爲input/ output/，即輸入路徑爲剛纔創建的input文件夾，輸出爲output。

運行

上述配置完成後，點擊菜單欄Run->Run 'WordCount’即開始運行此MapReduce程序，Intellij下方會顯示Hadoop的運行輸出。待程序運行完畢後，Intellij左上方會出現新的文件夾output，其中的part-r-00000就是運行的結果了！

由於Hadoop的設定，下次運行時務必刪除output文件夾！

出現的問題

ERROR security.UserGroupInformation: PriviledgedActionException as:owenc cause:java.io.IOException: Failed to set permissions of path:

替換掉hadoop-core下的1.2.1的jar包

這裏下載 https://download.csdn.net/download/yunlong34574/7079951

日誌分析代碼

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.util.StringTokenizer;

public class LogCount {
    // 自定義的 TokenizerMapper 類將繼承自 Mapper 類，以實現相關的接口和方法
    // 在 Map 階段將會執行其中的作業邏輯
    public static class LogMapper extends Mapper<Object, Text, Text, IntWritable> {

        private Text logIp = new Text();
        // 在 MapReduce 框架中，基本數據類型都封裝成了 Writable 類型
        // 因此 int 類型對應於 IntWritable 類型，在初始化時將其聲明爲靜態常量是爲了方便地使用 1 的值
        private final static IntWritable one = new IntWritable(1);
        // 聲明一個 Text 類型的私有成員變量 word

        // map 方法的寫法是標準格式，可以參考官方文檔理解各個參數的含義
        @Override
        public void map(Object key, Text value, Context context) throws IOException,InterruptedException{

            String logRecord = value.toString();
            String[] logField = logRecord.split(" ");
            logIp.set(logField[0]);
            context.write(logIp,one);
        }

    }

    // 自定義的 IntSumReducer 類將繼承自 Reducer 類，以實現相關的接口和方法
    // 在 Reduce 階段將會執行其中的作業邏輯

    public static class LogReducer extends Reducer<Text,IntWritable,Text,IntWritable>{
        // 聲明一個 IntWritable 類型值用於存放累加結果
        private IntWritable result = new IntWritable();

        // reduce 方法的寫法也是參考官方文檔進行的，相關的參數可以查閱官方文檔進行理解
        @Override
        public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            // 進行值的累加操作
            int sum = 0;
            for (IntWritable val : values) {
                sum += val.get();
            }
            // 將 int 基本類型通過 set 方法賦予到結果中
            result.set(sum);
            // 寫入上下文中進行保存
            context.write(key, result);
        }

    }

    // main 方法是整個程序的入口，在這裏涉及到作業（Job）的各項設置
    public static void main(String[] args) throws Exception{
        // 程序的第一步是聲明並初始化 Configuration 對象用於設置作業的相關運行參數
        Configuration conf = new Configuration();

        // 設置作業的配置參數和名稱
        Job job = Job.getInstance(conf, "log count");
        // 將 WordCount 類作爲運行的入口
        job.setJarByClass(LogCount.class);

        // 通過 setMapperClass 方法告訴集羣應當在 map 階段執行哪些邏輯
        job.setMapperClass(LogMapper.class);
        // 通過 setCombinerClass 方法告訴集羣應當在 combine 階段執行哪些邏輯，此處複用了 Reducer 的邏輯，用於在本地進行部分結果的累加
        job.setReducerClass(LogReducer.class);
        // 設置輸出結果中鍵的數據類型
        job.setOutputKeyClass(Text.class);
        // 設置輸出結果中值的數據類型
        job.setOutputValueClass(IntWritable.class);
        // 利用 main 函數的第 1 個輸入參數獲取輸入數據的路徑
        FileInputFormat.addInputPath(job, new Path(args[0]));
        // 利用 main 函數的第 2 個輸入參數獲取輸出數據的路徑
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        // job.waitForCompletion(true) 相當於開啓執行任務的開關，執行到此處時一個 MapReduce 應用纔會真正地開始計算
        // 使用 System.exit 方法來告知程序運行的狀態
        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }
}

win10+IDEA+Maven wordcount入門和日誌分析

新建項目

配置依賴

編寫wordcount

配置輸入文件

配置運行參數

運行

出現的問題

日誌分析代碼

AI 畫圖真刺激，手把手教你如何用 ComfyUI 來畫出刺激的圖

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

數據展示動態（跑分）顯示

公衆號5月C#/.NET熱文一覽

git 下載大陸鏡像地址

java字符串匹配是否是合法的時間

win10+IDEA+Maven wordcount入門和日誌分析

Vue去掉#/

網易筆試總結

Pandas簡單實現groupby分組統計

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結