MapReduce-在日誌中輸出函數-計數器

需求

需求還是那個需求啊!!
刪除文件中缺失值大於三個的記錄,並輸出刪除行數

分析及實現

  1. 數據
    編寫了一個1.csv用作測試數據,其中滿足刪除條件即缺失值大於三個的數據有4行,是所有偶數行,進行清洗之後,保留的數據有5行,是所有奇數行,文件具體數據內容如下:
1,l1,l2,l3,l4,l5,l6,l7,l8,l9
2,l1,NULL,NULL,NULL,NULL,l6,l7,l8,l9
3,l1,l2,l3,l4,l5,l6,l7,l8,l9
4,l1,NULL,l3,l4,NULL,NULL,l7,l8,NULL
5,l1,l2,l3,l4,l5,l6,l7,l8,l9
6,NULL,NULL,NULL,l4,l5,l6,l7,l8,NULL
7,l1,l2,l3,l4,l5,l6,l7,l8,l9
8,NULL,l2,NULL,l4,NULL,l6,l7,l8,NULL
9,l1,NULL,l3,l4,l5,l6,l7,l8,l9
  1. MR程序 打jar包
    啥也不說了,直接放代碼:

map.java

import com.alibaba.fastjson.JSONObject;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class t3map extends Mapper<LongWritable, Text,Text, NullWritable> {
    Text text=new Text();

	/* 創建枚舉類型
	存放最終輸出行數和處理的總行數
	兩者差值爲被刪除的數據的函數
	*/
    public enum FileRecorder{
        OutputRecorder,TotalRecorder
    }

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        String v=value.toString();
		
		//對數據進行初始化 並調用函數對數據進行處理
        String rawValue=PreProcessData(v);
        String ret=deleteOver3(splitString(rawValue));
        
        //對所有處理的行數計數
        context.getCounter(FileRecorder.TotalRecorder).increment(1);
        
        //判斷數據是否爲空
		if(CheckDate(ret)){
            text.set(ret);
		
			//對非空即可輸出的數據進行計數
            context.getCounter(FileRecorder.OutputRecorder).increment(1);
            context.write(text,NullWritable.get());
        }


    }
    
	/*
	對數據進行預處理
	清洗去除掉奇奇怪怪的字符串
	*/
    private String PreProcessData(String value){
        String retValue=value.toString();
        retValue=retValue.replace("//t","");
        retValue=retValue.replace("ux5123","");
        retValue=retValue.replace("Xoee","");
        return retValue;
    }
    
    /*
		對數據進行切分,以逗號分隔
	*/
    private String[] splitString(String value){
        String[] v=value.split(",");
        return v;
    }

	/*
		刪除缺失值大於三個的數據
		如果缺失值大於三個 就返回空值,否則返回字符串本身的值
	*/

    private String deleteOver3(String[] v){
        int n=0;
        String st="";
        for(int i=0;i<v.length;i++){

            if(v[i].equals("NULL")){
                n++;
            }
            st=st+v[i];
            if(i!=v.length-1){
                st+=",";
            }
        }
        if(n>3){
            return "";
        }
        return st;
    }



	/*
		對字符串進行判斷,如果是空的即被刪除了,返回false
		以後將不對這行數據進行寫入輸出處理
		否則返回true 會對數據進行輸出處理
	*/
    private boolean CheckDate(String str){
        if(str.equals("")){
            return false;
        }
        return true;
    }

}

driver.java
(因爲driver每次寫的基本上都差不多 所以只對計數器輸出那部分做解釋)


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;

public class t3driver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        job.setJarByClass(t3driver.class);
        job.setMapperClass(t3map.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(NullWritable.class);

        Path path = setPath(job);

        path.getFileSystem(conf).delete(path, true);
        int s=job.waitForCompletion(true) ? 0 : 1;
        //如果程序運行成功了 則s=0
        if(s==0){
			// 定義一個long類型的tot變量 獲取計數器裏對文件總處理行數的計數並存儲
            long tot=job.getCounters().findCounter(t3map.FileRecorder.TotalRecorder).getValue();
            // 定義一個long類型的out變量 獲取計數器裏對文件輸出行數的計數並存儲
            long out=job.getCounters().findCounter(t3map.FileRecorder.OutputRecorder).getValue();
            //定義一個long類型的變量del 獲取總行數和輸出行數的差值 即刪除的行數
            long del=tot-out;
            //對刪除的行數進行輸出
            System.out.println("---\n\ndeleteLine:"+del+"\n\n---");
        }

        System.exit(s);


    }
    private static Path setPath(Job job) throws IOException {
        FileInputFormat.addInputPath(job, new Path("hdfs:/data/spark_data2/h3cu/1.csv"));
        Path path = new Path("hdfs:/data/output");
        FileOutputFormat.setOutputPath(job, path);
        return path;
    }
}

打jar包 命名爲task2_1.jar

  1. 在spark中運行
    到spark目錄下,運行以下代碼
bin/spark-submit --master local --name task --class t3driver /data/task2_1.jar

其中 name是程序名
class是main方法所在的文件的全名
/data/task2_1.jar是jar包所在位置

結果分析

結果截圖:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章