【讀文獻】License Plate Detection and Recognition in Unconstrained Scenarios(2018年ECCV)

【讀文獻】License Plate Detection and Recognition in Unconstrained Scenarios(2018年ECCV)

參考文章鏈接:https://blog.csdn.net/cdknight_happy/article/details/93190934
一、實驗背景
ALPR(自動車牌識別)領域大多數方法集中在LP特定地區(如歐洲、美國、臺灣、巴西等),且常聚焦在近似正面圖像的數據。
本論文主要解決傾斜角度下的ALPR問題,專注無約束的場景。 本論文中引入了一種新穎的CNN——WPOD-NET(變形平面目標檢測網絡),該網絡能夠在單個圖像中檢測和校正多個失真的車牌。
本論文
二、實驗過程及結論
1.實驗流程圖
ALPR主要分爲四個步驟:車輛檢測、車牌檢測、字符分割和字符識別。後兩步組合爲OCR(位於文章 2Ralated Work第一段)
在這裏插入圖片描述
2.實驗條件
系統環境:
WPOD-NET:使用TensorFlow框架實現;
YoloV2車輛檢測、OCR-NET:使用DarkNet框架創建和執行。
硬件條件:
Interl Xeon處理器,12GB RAM;NVIDIA Titan X GPU。

3.實驗結果
評估原則:根據正確識別LP的百分比。當LP所有字符都被正確識別且沒有檢測到其他字符,則視爲正確識別。
在這裏插入圖片描述注1:Ours:OCR-NET的訓練數據爲真實增強數據+人工生成的數據;
Ours(no artf.):OCR-NET的訓練數據只包含真實增強數據;
Ours(unrect.):使用常規非矯正邊界框。
真實增強數據:訓練WPOD-NET時對196個手動標註的圖像數據集進行增強後的?
人工生成的數據:見文章Fig7。
注2:實驗所用4個數據集中OpenALPR、SSIG主要是正面LP,AOLP是正面+傾斜,CD-HARD大部分是傾斜。具體區別可看文章3.4的Table 1

結論:本文使用了四個獨立的數據集來評估所提出的方法在不同場景和區域中的準確性,同時還展示了與提供完整ALPR系統的商業產品和論文的比較。
1)Ours系統表現最好,添加合成數據提高了所有測試數據集的準確性;同時在LP正面數據集中,結果變化不大,但是在具有挑戰性的傾斜LP的數據集中,準確的大幅下降 。
合成數據的使用有助於極大地改善網絡泛化能力
2)相比其他商業、學術系統,LP正面數據集中的識別率相對,但是在具有挑戰性 的情況下,本文系統優於所有比較方法。
3)最具挑戰性的數據集(AOLPRP和CD-HARD)的完整LP識別率 高於 OCR模塊直接應用於帶標註的矩形LP邊界框(AOLPRP爲79.21%,CD-HARD爲53.85%)。圖8展示了圖1中LP校正後的圖像 和 OCR識別後的結果。
5)引入的新CNN可以在單個圖像中檢測和校正多個失真的車牌。

三、實驗詳情
1.車輛檢測(YoloV2)
1)本文所用方法
基於召回率、精度和速度的要求,選用了YOLOV2網絡;
將正的檢測結果輸入WPOD-NET之前調整大小,本文定義了簡單的縮放因子fsc,接近1時,可用較小尺寸,且隨着縱橫比變大而增加尺寸。(fsc定義見文章 3.1)
2)本文簡述了Hsu的論文、論文【31】,比對 各種優缺點。
Hsu論文:略微修改了YOLO、YOLOV2網絡進行LP檢測;擴大了網絡輸出粒度,改善檢測數量並獲取檢測框屬於LP和背景兩個類的概率。
在這裏插入圖片描述
在這裏插入圖片描述
2.車牌檢測和校正(WPOD-NET,,引入了新的CNN)
1)WPOD-NET系統構成
將車輛檢測模塊的輸出進行縮放後送入WPOD。前向過程得到了8通道的特徵映射(包含了目標/非目標的概率和仿射變換參數)。爲了提取扭曲的LP,讓我們首先考慮一個圍繞單元格中心的固定大小爲(m,n)的虛構矩形框,如果該矩形框包含目標的概率高於給定的檢測閾值,則使用部分迴歸參數來構建將虛構正方形變換爲LP區域的仿射矩陣。因此,我們可以輕鬆地將LP校正成水平和垂直對齊的對象。

系統檢測過程如圖3所示:
在這裏插入圖片描述
系統構成如圖4所示:
在這裏插入圖片描述
2)WPOD-NET網絡的訓練
爲了訓練提出的WPOD-NET,創建了一個包含196個圖像的數據集。同時由於數據集中的註釋圖像很少,所以使用了數據增強。使用ADAM優化算法[15]對網絡進行了100k次小批量爲32的迭代訓練。學習率設定爲0.001,參數β1= 0.9,β2= 0.999。通過隨機選擇和增加來自訓練集的樣本來生成小批量,從而在每次迭代時產生大小爲32×208×208×3的新輸入張量。
196個圖像數據集中,其中105個來自Cars數據集,40個來自SSIG數據集(訓練子集),51個來自AOLP數據集(LE子集)。對於每個圖像,我們手動標註圖片中LP的4個角(有時不止一個)。
來自汽車數據集的所選圖像主要包括歐洲LP,但也有許多美國以及其他類型的LP。來自SSIG和AOLP的圖像分別包含巴西和中國臺灣的LP。一些帶註釋的樣本如圖5所示。

3.字符分割和識別(OCR-NET)
1)校正後的LP上的字符分割和識別使用修改的YOLO網絡執行,採用了參考文獻【28】中所示的架構;
2)通過使用合成和增強數據來應對世界各地(歐洲,美國和巴西)不同地區的LP特徵,訓練數據集在這項工作中得到了相當大的擴展。?

四、其他結論
1.實驗背景(來源文章0)
ALPR領域大多集中在特定區域(臺灣、美國等),且常研究近似正面圖像的數據集。
2.ALPR領域發展現狀(來源文章1)
深度學習已經運用到車輛和車牌檢測領域。但大多數ALPR系統主要採用車輛和LP正面視圖,所以最先進的商業ALPR系統對傾斜LP圖像的識別率也不高。
ALPR系統有四個子系統(可簡化爲3個,最後兩步組合稱OCR)車輛檢測、車牌檢測、字符分割和字符識別。過去針對子系統提取候選框,先是使用圖像二值化或灰度分析,再到手工製作的特徵提取方法,經典的機器學習分類器,等等。直至DL的興起。
3.與ALPR相似的場景(來源文章2開頭)
ALPR相關的場景是文本定位(STS)、野外數字讀取等,且常常將ALPR視爲STS的特例,但仍有不同。ALPR需要學習沒有語義信息的字符和數字;STS專注於包含高字體可變性的文本信息,並探索詞彙和語義信息。

五.主要貢獻
我們的主要貢獻是引入了一種新型網絡,能夠在許多不同的攝像機姿態中檢測LP並估計其失真,從而允許在OCR之前進行校正處理。
另一個貢獻是大量使用合成扭曲的真實圖像來增強訓練數據,允許使用少於200個手動標記的圖像從頭開始訓練網絡

六.主要疑問
1)3.3 OCR中提到的synthetic data(合成數據/人工生成數據)到底是怎麼來的,數據來源是什麼?此部分不是很清楚。
2)6.2 中提到的NMS操作的執行。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章