目标检测中,pascal格式的数据集用xml作为标签。如果在标注的时候,目标过小,则无法检测出来,这里我参考resnet101的stride=16,删除总像素大小小于31x31=961的目标。其实打开图片看可以发现,绝大部分这个大小的目标,在原图中人根据经验可以猜测出是一个目标,但是crop出来单独看,你都看不出是什么玩意。
代码如下:
# -*- coding:utf-8 -*-
# nansbas
# 2019.1.21
import os
import xml.etree.ElementTree as ET
import numpy as np
np.set_printoptions(suppress=True, threshold=np.nan)
import matplotlib
from PIL import Image
#读取xml文件,解析之后把每一个目标存为obj_struct字典,保存在Objects列表里面
def parse_obj(xml_path, filename):
tree=ET.parse(xml_path+filename)
objects=[]
for obj in tree.findall('object'):
obj_struct={}
obj_struct['name']=obj.find('name').text
bbox=obj.find('bndbox')
obj_struct['bbox']=[int(bbox.find('xmin').text),
int(bbox.find('ymin').text),
int(bbox.find('xmax').text),
int(bbox.find('ymax').text)]
objects.append(obj_struct)
return objects
#读取图像大小
def read_image(image_path, filename):
im=Image.open(image_path+filename)
W=im.size[0]
H=im.size[1]
area=W*H
im_info=[W,H,area]
return im_info
#主函数
if __name__ == '__main__':
image_path='C:/Users/nansbas/Desktop/JPEGImages/'
xml_path='C:/Users/nansbas/Desktop/hebin/03/'
filenamess=os.listdir(xml_path)
xml_path2='C:/Users/nansbas/Desktop/hebin/04/'
filenames=[]
for name in filenamess:
name=name.replace('.xml','')
filenames.append(name)
#recs是Objects列表的集合。
#ims_info是读取出来的图片长宽和面积信息
#obs_shape里面为:w\h\area\w rate\h rate\ area rate
#classnames为类别名称集合
#num_objs里面保存了类目标的数量
#obj_avg为求平均后的结果
recs={}
ims_info={}
obs_shape={}
classnames=[]
num_objs={}
obj_avg={}
for name in filenames:
# print(name)
tree=ET.parse(xml_path+name+ '.xml')
root=tree.getroot()
objects=[]
for obj in tree.findall('object'):
obj_struct={}
obj_struct['name']=obj.find('name').text
bbox=obj.find('bndbox')
obj_struct['bbox']=[int(bbox.find('xmin').text),
int(bbox.find('ymin').text),
int(bbox.find('xmax').text),
int(bbox.find('ymax').text)]
ob_w = int(bbox.find('xmax').text) - int(bbox.find('xmin').text)
ob_h = int(bbox.find('ymax').text) - int(bbox.find('ymin').text)
ob_area = ob_w*ob_h
# print(ob_area)
if ob_area<=961:
print("这个图片目标过小:{},{}".format(name,object))
root.remove(obj)
print("已删除")
tree.write(xml_path2+ name+ '.xml')