環境準備

安裝Hadoop

訪問 Hadoop官網，下載Hadoop到Windows本地，本例中下載的是 hadoop-3.0.0.tar.gz 。

將 Hadoop 解壓到合適的目錄，並設置環境變量：

HADOOP_HOME=C:\DevTolls\hadoop-3.0.0

並在 Path 環境變量增加兩項：

%HADOOP_HOME%\bin;%HADOOP_HOME%\sbin;

安裝winutils插件

訪問 winutils的Git項目地址，將下載的壓縮包進行解壓。

根據你的 hadoop 版本，將對應的目錄下的 hadoop.dll和winutils.exe 複製到 hadoop 的 \bin 目錄。

若缺少 winutils.exe 的情況下啓動 MapReduce 作業會出現如下錯誤：

2020-04-13 18:47:37,788 WARN [org.apache.hadoop.util.Shell] - Did not find winutils.exe: {}

java.io.FileNotFoundException: Could not locate Hadoop executable: C:\DevTolls\hadoop-3.0.0\bin\winutils.exe -see https://wiki.apache.org/hadoop/WindowsProblems

Map-Reduce項目

新建Maven項目

打開 IDEA，進行如下操作新建一個Maven項目。

File ==> New ==> Project...，創建一個 Maven 工程，先設置好JDK，選擇不使用模板（不需要勾選 Create from archetype），直接 Next 。設置好 GroupId 、ArtifactId 和 Project name 完成項目創建。

引入Maven依賴

修改 pom.xml 文件，添加 Hadoop 相關的依賴，根據自己的實際情況，選擇合適的版本。

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.pengjunlee</groupId>
    <artifactId>wordcount-test</artifactId>
    <version>1.0-SNAPSHOT</version>

    <properties>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
        <!--設置hadoop版本-->
        <hadoop.version>3.0.0</hadoop.version>
    </properties>

    <dependencies>
        <!--hadoop 依賴-->
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.12</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
    </dependencies>


</project>

編寫代碼

WordcountMapper

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * KEYIN:默認情況下，是mr框架所讀到的一行文本的起始偏移量，Long;
 * 在hadoop中有自己的更精簡的序列化接口，所以不直接用Long，而是用LongWritable
 * VALUEIN:默認情況下，是mr框架所讀到的一行文本內容，String;此處用Text
 * KEYOUT:是用戶自定義邏輯處理完成之後輸出數據中的key,在此處是單詞，String；此處用Text
 * VALUEOUT，是用戶自定義邏輯處理完成之後輸出數據中的value，在此處是單詞次數，Integer，此處用IntWritable
 * @author Administrator
 */
public class WordcountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
    /**
     * map階段的業務邏輯就寫在自定義的map()方法中
     * maptask會對每一行輸入數據調用一次我們自定義的map（）方法
     */
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        // 1 將maptask傳給我們的文本內容先轉換成String
        String line = value.toString();

        // 2 根據空格將這一行切分成單詞
        String[] words = line.split(" ");

        // 3 將單詞輸出爲<單詞，1>
        for(String word:words){
            // 將單詞作爲key，將次數1作爲value,以便於後續的數據分發，可以根據單詞分發，以便於相同單詞會到相同的reducetask中
            context.write(new Text(word), new IntWritable(1));
        }
    }
}

WordcountReducer

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * KEYIN , VALUEIN 對應mapper輸出的KEYOUT, VALUEOUT類型
 * KEYOUT，VALUEOUT 對應自定義reduce邏輯處理結果的輸出數據類型 KEYOUT是單詞 VALUEOUT是總次數
 */
public class WordcountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

    /**
     * key，是一組相同單詞kv對的key
     */
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

        int count = 0;

        // 1 彙總各個key的個數
        for(IntWritable value:values){
            count +=value.get();
        }

        // 2輸出該key的總次數
        context.write(key, new IntWritable(count));
    }
}

WordcountDriver

package com.pengjunlee.wordcount;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * 相當於一個yarn集羣的客戶端，
 * 需要在此封裝我們的mr程序相關運行參數，指定jar包
 * 最後提交給yarn
 * @author Administrator
 */
public class WordcountDriver {
    public static void main(String[] args) throws Exception {
        // 1 獲取配置信息，或者job對象實例
        Configuration configuration = new Configuration();
        // 8 配置提交到yarn上運行,windows和Linux變量不一致
//        configuration.set("mapreduce.framework.name", "yarn");
//        configuration.set("yarn.resourcemanager.hostname", "node22");
        Job job = Job.getInstance(configuration);

        // 6 指定本程序的jar包所在的本地路徑
//        job.setJar("/home/admin/wc.jar");
        job.setJarByClass(WordcountDriver.class);

        // 2 指定本業務job要使用的mapper/Reducer業務類
        job.setMapperClass(WordcountMapper.class);
        job.setReducerClass(WordcountReducer.class);

        // 3 指定mapper輸出數據的kv類型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        // 4 指定最終輸出的數據的kv類型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        // 5 指定job的輸入原始文件所在目錄
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        // 7 將job中配置的相關參數，以及job所用的java類所在的jar包， 提交給yarn去運行
//        job.submit();
        boolean result = job.waitForCompletion(true);
        System.exit(result?0:1);
    }
}

log4j.properties

在 /resources 目錄下添加 log4j.properties 配置。

log4j.rootLogger=INFO, stdout  
log4j.appender.stdout=org.apache.log4j.ConsoleAppender  
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout  
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n  
log4j.appender.logfile=org.apache.log4j.FileAppender  
log4j.appender.logfile.File=target/spring.log  
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout  
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

啓動測試

模擬數據

在項目根目錄下新建一個 /input 文件夾，用來存放測試數據。

demo.txt 內容如下：

hello world
dog fish
hadoop 
spark
hello world
dog fish
hadoop 
spark
hello world
dog fish
hadoop 
spark

配置啓動參數

按照如下指引，新建一個啓動配置。其中 Program arguments 中需指定輸入樣本數據目錄和統計結果輸出目錄（必須是一個不存在的目錄，否則會報錯）。

測試結果

啓動 Application ，運行完成之後項目根目錄下會多出來一個 /output 目錄，裏面存放了程序的執行結果。

part-r-00000文件內容如下：

dog	3
fish	3
hadoop	3
hello	3
spark	3
world	3

IDEA本地調試Map-Reduce程序

環境準備

安裝Hadoop

安裝winutils插件

Map-Reduce項目

新建Maven項目

引入Maven依賴

編寫代碼

WordcountMapper

WordcountReducer

WordcountDriver

log4j.properties

啓動測試

模擬數據

配置啓動參數

測試結果

Mysql中Join用法及優化

MongoDB中索引的創建和使用詳解

springboot 返回的json中忽略null屬性值，不傳遞

MongoTemplate中$in、$gt、$addToSet、$elemMatch、排序、分頁的使用

gitlab刪除文件/目錄

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結