需求
需求還是那個需求啊!!
刪除文件中缺失值大於三個的記錄,並輸出刪除行數
分析及實現
- 數據
編寫了一個1.csv用作測試數據,其中滿足刪除條件即缺失值大於三個的數據有4行,是所有偶數行,進行清洗之後,保留的數據有5行,是所有奇數行,文件具體數據內容如下:
1,l1,l2,l3,l4,l5,l6,l7,l8,l9
2,l1,NULL,NULL,NULL,NULL,l6,l7,l8,l9
3,l1,l2,l3,l4,l5,l6,l7,l8,l9
4,l1,NULL,l3,l4,NULL,NULL,l7,l8,NULL
5,l1,l2,l3,l4,l5,l6,l7,l8,l9
6,NULL,NULL,NULL,l4,l5,l6,l7,l8,NULL
7,l1,l2,l3,l4,l5,l6,l7,l8,l9
8,NULL,l2,NULL,l4,NULL,l6,l7,l8,NULL
9,l1,NULL,l3,l4,l5,l6,l7,l8,l9
- MR程序 打jar包
啥也不說了,直接放代碼:
map.java
import com.alibaba.fastjson.JSONObject;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;
public class t3map extends Mapper<LongWritable, Text,Text, NullWritable> {
Text text=new Text();
/* 創建枚舉類型
存放最終輸出行數和處理的總行數
兩者差值爲被刪除的數據的函數
*/
public enum FileRecorder{
OutputRecorder,TotalRecorder
}
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
String v=value.toString();
//對數據進行初始化 並調用函數對數據進行處理
String rawValue=PreProcessData(v);
String ret=deleteOver3(splitString(rawValue));
//對所有處理的行數計數
context.getCounter(FileRecorder.TotalRecorder).increment(1);
//判斷數據是否爲空
if(CheckDate(ret)){
text.set(ret);
//對非空即可輸出的數據進行計數
context.getCounter(FileRecorder.OutputRecorder).increment(1);
context.write(text,NullWritable.get());
}
}
/*
對數據進行預處理
清洗去除掉奇奇怪怪的字符串
*/
private String PreProcessData(String value){
String retValue=value.toString();
retValue=retValue.replace("//t","");
retValue=retValue.replace("ux5123","");
retValue=retValue.replace("Xoee","");
return retValue;
}
/*
對數據進行切分,以逗號分隔
*/
private String[] splitString(String value){
String[] v=value.split(",");
return v;
}
/*
刪除缺失值大於三個的數據
如果缺失值大於三個 就返回空值,否則返回字符串本身的值
*/
private String deleteOver3(String[] v){
int n=0;
String st="";
for(int i=0;i<v.length;i++){
if(v[i].equals("NULL")){
n++;
}
st=st+v[i];
if(i!=v.length-1){
st+=",";
}
}
if(n>3){
return "";
}
return st;
}
/*
對字符串進行判斷,如果是空的即被刪除了,返回false
以後將不對這行數據進行寫入輸出處理
否則返回true 會對數據進行輸出處理
*/
private boolean CheckDate(String str){
if(str.equals("")){
return false;
}
return true;
}
}
driver.java
(因爲driver每次寫的基本上都差不多 所以只對計數器輸出那部分做解釋)
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
public class t3driver {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
job.setJarByClass(t3driver.class);
job.setMapperClass(t3map.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(NullWritable.class);
Path path = setPath(job);
path.getFileSystem(conf).delete(path, true);
int s=job.waitForCompletion(true) ? 0 : 1;
//如果程序運行成功了 則s=0
if(s==0){
// 定義一個long類型的tot變量 獲取計數器裏對文件總處理行數的計數並存儲
long tot=job.getCounters().findCounter(t3map.FileRecorder.TotalRecorder).getValue();
// 定義一個long類型的out變量 獲取計數器裏對文件輸出行數的計數並存儲
long out=job.getCounters().findCounter(t3map.FileRecorder.OutputRecorder).getValue();
//定義一個long類型的變量del 獲取總行數和輸出行數的差值 即刪除的行數
long del=tot-out;
//對刪除的行數進行輸出
System.out.println("---\n\ndeleteLine:"+del+"\n\n---");
}
System.exit(s);
}
private static Path setPath(Job job) throws IOException {
FileInputFormat.addInputPath(job, new Path("hdfs:/data/spark_data2/h3cu/1.csv"));
Path path = new Path("hdfs:/data/output");
FileOutputFormat.setOutputPath(job, path);
return path;
}
}
打jar包 命名爲task2_1.jar
- 在spark中運行
到spark目錄下,運行以下代碼
bin/spark-submit --master local --name task --class t3driver /data/task2_1.jar
其中 name是程序名
class是main方法所在的文件的全名
/data/task2_1.jar是jar包所在位置
結果分析
結果截圖: