【读文献】License Plate Detection and Recognition in Unconstrained Scenarios(2018年ECCV)

【读文献】License Plate Detection and Recognition in Unconstrained Scenarios(2018年ECCV)

参考文章链接:https://blog.csdn.net/cdknight_happy/article/details/93190934
一、实验背景
ALPR(自动车牌识别)领域大多数方法集中在LP特定地区(如欧洲、美国、台湾、巴西等),且常聚焦在近似正面图像的数据。
本论文主要解决倾斜角度下的ALPR问题,专注无约束的场景。 本论文中引入了一种新颖的CNN——WPOD-NET(变形平面目标检测网络),该网络能够在单个图像中检测和校正多个失真的车牌。
本论文
二、实验过程及结论
1.实验流程图
ALPR主要分为四个步骤:车辆检测、车牌检测、字符分割和字符识别。后两步组合为OCR(位于文章 2Ralated Work第一段)
在这里插入图片描述
2.实验条件
系统环境:
WPOD-NET:使用TensorFlow框架实现;
YoloV2车辆检测、OCR-NET:使用DarkNet框架创建和执行。
硬件条件:
Interl Xeon处理器,12GB RAM;NVIDIA Titan X GPU。

3.实验结果
评估原则:根据正确识别LP的百分比。当LP所有字符都被正确识别且没有检测到其他字符,则视为正确识别。
在这里插入图片描述注1:Ours:OCR-NET的训练数据为真实增强数据+人工生成的数据;
Ours(no artf.):OCR-NET的训练数据只包含真实增强数据;
Ours(unrect.):使用常规非矫正边界框。
真实增强数据:训练WPOD-NET时对196个手动标注的图像数据集进行增强后的?
人工生成的数据:见文章Fig7。
注2:实验所用4个数据集中OpenALPR、SSIG主要是正面LP,AOLP是正面+倾斜,CD-HARD大部分是倾斜。具体区别可看文章3.4的Table 1

结论:本文使用了四个独立的数据集来评估所提出的方法在不同场景和区域中的准确性,同时还展示了与提供完整ALPR系统的商业产品和论文的比较。
1)Ours系统表现最好,添加合成数据提高了所有测试数据集的准确性;同时在LP正面数据集中,结果变化不大,但是在具有挑战性的倾斜LP的数据集中,准确的大幅下降 。
合成数据的使用有助于极大地改善网络泛化能力
2)相比其他商业、学术系统,LP正面数据集中的识别率相对,但是在具有挑战性 的情况下,本文系统优于所有比较方法。
3)最具挑战性的数据集(AOLPRP和CD-HARD)的完整LP识别率 高于 OCR模块直接应用于带标注的矩形LP边界框(AOLPRP为79.21%,CD-HARD为53.85%)。图8展示了图1中LP校正后的图像 和 OCR识别后的结果。
5)引入的新CNN可以在单个图像中检测和校正多个失真的车牌。

三、实验详情
1.车辆检测(YoloV2)
1)本文所用方法
基于召回率、精度和速度的要求,选用了YOLOV2网络;
将正的检测结果输入WPOD-NET之前调整大小,本文定义了简单的缩放因子fsc,接近1时,可用较小尺寸,且随着纵横比变大而增加尺寸。(fsc定义见文章 3.1)
2)本文简述了Hsu的论文、论文【31】,比对 各种优缺点。
Hsu论文:略微修改了YOLO、YOLOV2网络进行LP检测;扩大了网络输出粒度,改善检测数量并获取检测框属于LP和背景两个类的概率。
在这里插入图片描述
在这里插入图片描述
2.车牌检测和校正(WPOD-NET,,引入了新的CNN)
1)WPOD-NET系统构成
将车辆检测模块的输出进行缩放后送入WPOD。前向过程得到了8通道的特征映射(包含了目标/非目标的概率和仿射变换参数)。为了提取扭曲的LP,让我们首先考虑一个围绕单元格中心的固定大小为(m,n)的虚构矩形框,如果该矩形框包含目标的概率高于给定的检测阈值,则使用部分回归参数来构建将虚构正方形变换为LP区域的仿射矩阵。因此,我们可以轻松地将LP校正成水平和垂直对齐的对象。

系统检测过程如图3所示:
在这里插入图片描述
系统构成如图4所示:
在这里插入图片描述
2)WPOD-NET网络的训练
为了训练提出的WPOD-NET,创建了一个包含196个图像的数据集。同时由于数据集中的注释图像很少,所以使用了数据增强。使用ADAM优化算法[15]对网络进行了100k次小批量为32的迭代训练。学习率设定为0.001,参数β1= 0.9,β2= 0.999。通过随机选择和增加来自训练集的样本来生成小批量,从而在每次迭代时产生大小为32×208×208×3的新输入张量。
196个图像数据集中,其中105个来自Cars数据集,40个来自SSIG数据集(训练子集),51个来自AOLP数据集(LE子集)。对于每个图像,我们手动标注图片中LP的4个角(有时不止一个)。
来自汽车数据集的所选图像主要包括欧洲LP,但也有许多美国以及其他类型的LP。来自SSIG和AOLP的图像分别包含巴西和中国台湾的LP。一些带注释的样本如图5所示。

3.字符分割和识别(OCR-NET)
1)校正后的LP上的字符分割和识别使用修改的YOLO网络执行,采用了参考文献【28】中所示的架构;
2)通过使用合成和增强数据来应对世界各地(欧洲,美国和巴西)不同地区的LP特征,训练数据集在这项工作中得到了相当大的扩展。?

四、其他结论
1.实验背景(来源文章0)
ALPR领域大多集中在特定区域(台湾、美国等),且常研究近似正面图像的数据集。
2.ALPR领域发展现状(来源文章1)
深度学习已经运用到车辆和车牌检测领域。但大多数ALPR系统主要采用车辆和LP正面视图,所以最先进的商业ALPR系统对倾斜LP图像的识别率也不高。
ALPR系统有四个子系统(可简化为3个,最后两步组合称OCR)车辆检测、车牌检测、字符分割和字符识别。过去针对子系统提取候选框,先是使用图像二值化或灰度分析,再到手工制作的特征提取方法,经典的机器学习分类器,等等。直至DL的兴起。
3.与ALPR相似的场景(来源文章2开头)
ALPR相关的场景是文本定位(STS)、野外数字读取等,且常常将ALPR视为STS的特例,但仍有不同。ALPR需要学习没有语义信息的字符和数字;STS专注于包含高字体可变性的文本信息,并探索词汇和语义信息。

五.主要贡献
我们的主要贡献是引入了一种新型网络,能够在许多不同的摄像机姿态中检测LP并估计其失真,从而允许在OCR之前进行校正处理。
另一个贡献是大量使用合成扭曲的真实图像来增强训练数据,允许使用少于200个手动标记的图像从头开始训练网络

六.主要疑问
1)3.3 OCR中提到的synthetic data(合成数据/人工生成数据)到底是怎么来的,数据来源是什么?此部分不是很清楚。
2)6.2 中提到的NMS操作的执行。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章