DataWhale–CV入門訓練

賽題目的

通過零基礎入門CV之街道字符識別引導入門,,提高對數據建模能力。以計算機視覺中字符識別爲背景,預測街道字符編碼,這是一個典型的字符識別問題,賽題數據採用公開數據集SVHN,因此可以選擇很多相應的paper作爲思路參考。

賽題數據來源

源自Google街景圖像中的門牌號數據集(SVHN),並根據一定方式採樣得到比賽數據集。該數據來自真實場景的門牌號。訓練集數據包括3W張照片,驗證集數據包括1W張照片,每張照片包括顏色圖像和對應的編碼類別和具體位置;爲了保證比賽的公平性,測試集A包括4W張照片,測試集B包括4W張照片。
圖片如下:
在這裏插入圖片描述
————————————————
所有的數據(訓練集、驗證集和測試集)的標註使用JSON格式,並使用文件名進行索引。如果一個文件中包括多個字符,則使用列表將字段進行組合
在這裏插入圖片描述

評測標準

評價標準爲準確率,選手提交結果與實際圖片的編碼進行對比,以編碼整體識別準確率爲評價指標,結果越大越好,具體計算公式如下:
在這裏插入圖片描述

結果提交

提交前需確定預測結果的格式與sample_submit.csv中的格式一致,以及提交文件後綴名爲csv

file_name, file_code
0010000.jpg,451
0010001.jpg,232
0010002.jpg,45
0010003.jpg,67
0010004.jpg,191
0010005.jpg,892

解題思路

賽題本質是分類問題,需要對圖片的字符進行識別。但賽題給定的數據圖片中不同圖片中包含的字符數量不等,所以難點是在與對不定長的字符進行識別,與傳統的圖像分類任務有所不同。
根據提供的參考:
簡單入門思路:定長字符識別
可以將賽題抽象爲一個定長字符識別問題,在賽題數據集中大部分圖像中字符個數爲2-4個,最多的字符 個數爲6個。
因此可以對於所有的圖像都抽象爲最長字符的識別問題,將短字符進行填充,如字符23填充爲23XXXX,字符231填充爲231XXX。經過填充之後,原始的賽題可以簡化爲定長字符的分類問題。在每個字符的分類中會進行11個類別的分類,假如分類爲填充字符,則表明該字符爲空。
在字符識別研究中,也有特定的方法來解決此種不定長的字符識別問題,比較典型的有CRNN字符識別模型。
在本次賽題中給定的圖像數據都比較規整,可以視爲一個單詞或者一個句子。
也可以先檢測再識別,在賽題數據中已經給出了訓練集、驗證集中所有圖片中字符的位置,因此可以首先將字符的位置進行識別,利用物體檢測的思路完成。這樣主要是構建字符檢測模型,對測試集中的字符進行識別。可以參考物體檢測模型SSD或者YOLO來完成。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章