這是一個用於車牌識別的大型國內的數據集,由中科大的科研人員構建出來的。發表在ECCV2018論文Towards End-to-End License Plate Detection and Recognition: A Large Dataset and Baseline
https://github.com/detectRecog/CCPD
該數據集在合肥市的停車場採集得來的,採集時間早上7:30到晚上10:00.涉及多種複雜環境。
一共包含超多25萬張圖片,每種圖片大小720x1160x3。一共包含9項。每項佔比如下圖:
各項意義如下:
CCPD- | 數量/k | 描述 |
Base | 200 | 正常車牌 |
FN | 20 | 距離攝像頭相當的遠或者相當近 |
DB | 20 | 光線暗或者比較亮 |
Rotate | 10 | 水平傾斜20-25°,垂直傾斜-10-10° |
Tilt | 10 | 水平傾斜15-45°,垂直傾斜15-45° |
Weather | 10 | 在雨天,雪天,或者霧天 |
Blur | 5 | 由於相機抖動造成的模糊 |
Challenge | 10 | 其他的比較有挑戰性的車牌 |
NP | 5 | 沒有車牌的新車 |
數據標註:文件名就是數據標註.
如:025-95_113-154&383_386&473-386&473_177&454_154&383_363&402-0_0_22_27_27_33_16-37-15.jpg
由分隔符'-'分爲幾個部分:
1)025爲區域,
2)95_113 對應兩個角度, 水平95°, 豎直113°
3)154&383_386&473對應邊界框座標:左上(154, 383), 右下(386, 473)
4)386&473_177&454_154&383_363&402對應四個角點座標
5)0_0_22_27_27_33_16爲車牌號碼 映射關係如下: 第一個爲省份0 對應省份字典皖, 後面的爲字母和文字, 查看ads字典.如0爲A, 22爲Y.....
- provinces = ["皖", "滬", "津", "渝", "冀", "晉", "蒙", "遼", "吉", "黑", "蘇", "浙", "京", "閩", "贛", "魯", "豫", "鄂", "湘", "粵", "桂", "瓊", "川", "貴", "雲", "藏", "陝", "甘", "青", "寧", "新", "警", "學", "O"]
-
- ads = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'J', 'K', 'L', 'M', 'N', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X',
- 'Y', 'Z', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'O']
6)37亮度
7)15模糊度
所以根據文件名即可獲得所有標註信息.
模型:
10層卷積提取特徵,經過三個全連接層到邊界框:此爲檢測部分,
提取1,3,5層的特徵用於ROI池化,因爲底層特徵有益於提高語義分割的質量,高層特徵受益不大,且花費更多的時間。然後經過ROI池化,resize後 拼接在一起,輸入到車牌號碼識別器。目標函數如下:
roi池化參考:https://blog.csdn.net/auto1993/article/details/78514071
smoothL1損失爲了防止預測值和label相差過大,梯度爆炸:https://blog.csdn.net/weixin_35653315/article/details/54571681
=================================================================================================
發現老的ccpd的標註有很多不正確,最近ccpd更新了數據以及標註.
數據量 ccpd_base: 200k
ccpd_challenge : 50k 相對增加40k
ccpd_blur:20.6k
ccpd_db:10k 相對較少10k
ccpd_fn:20.9k
ccpd_weather :10k
ccpd_rotate:10k
ccpd:tilt:30k 相對增加20k
所以總體增加50k
同時增加了數據量,爲了和論文對比還是使用原始的數據量把, 可以更新標註
base 有5萬5千多張重複的車牌號碼, 所以不能用車牌號碼校對, 但是md5值不唯一,所以可以用這個來校對
ccpd子集之間有重複圖片, 但是單個子集沒有重複的, 這樣就可以一個一個子集校對
使用車牌號碼也無法校對, 因爲有同一個車牌號碼, 不同角度的車.
所以目前的結論爲base可以根據MD5校對, 其他子集無法校對.