賽題目的

通過零基礎入門CV之街道字符識別引導入門，，提高對數據建模能力。以計算機視覺中字符識別爲背景，預測街道字符編碼，這是一個典型的字符識別問題，賽題數據採用公開數據集SVHN，因此可以選擇很多相應的paper作爲思路參考。

賽題數據來源

源自Google街景圖像中的門牌號數據集（SVHN），並根據一定方式採樣得到比賽數據集。該數據來自真實場景的門牌號。訓練集數據包括3W張照片，驗證集數據包括1W張照片，每張照片包括顏色圖像和對應的編碼類別和具體位置；爲了保證比賽的公平性，測試集A包括4W張照片，測試集B包括4W張照片。
圖片如下：

————————————————
所有的數據（訓練集、驗證集和測試集）的標註使用JSON格式，並使用文件名進行索引。如果一個文件中包括多個字符，則使用列表將字段進行組合

評測標準

評價標準爲準確率，選手提交結果與實際圖片的編碼進行對比，以編碼整體識別準確率爲評價指標，結果越大越好，具體計算公式如下：

結果提交

提交前需確定預測結果的格式與sample_submit.csv中的格式一致，以及提交文件後綴名爲csv

file_name, file_code
0010000.jpg,451
0010001.jpg,232
0010002.jpg,45
0010003.jpg,67
0010004.jpg,191
0010005.jpg,892

解題思路

賽題本質是分類問題，需要對圖片的字符進行識別。但賽題給定的數據圖片中不同圖片中包含的字符數量不等，所以難點是在與對不定長的字符進行識別，與傳統的圖像分類任務有所不同。
根據提供的參考：
簡單入門思路：定長字符識別
可以將賽題抽象爲一個定長字符識別問題，在賽題數據集中大部分圖像中字符個數爲2-4個，最多的字符個數爲6個。
因此可以對於所有的圖像都抽象爲最長字符的識別問題，將短字符進行填充，如字符23填充爲23XXXX，字符231填充爲231XXX。經過填充之後，原始的賽題可以簡化爲定長字符的分類問題。在每個字符的分類中會進行11個類別的分類，假如分類爲填充字符，則表明該字符爲空。
在字符識別研究中，也有特定的方法來解決此種不定長的字符識別問題，比較典型的有CRNN字符識別模型。
在本次賽題中給定的圖像數據都比較規整，可以視爲一個單詞或者一個句子。
也可以先檢測再識別，在賽題數據中已經給出了訓練集、驗證集中所有圖片中字符的位置，因此可以首先將字符的位置進行識別，利用物體檢測的思路完成。這樣主要是構建字符檢測模型，對測試集中的字符進行識別。可以參考物體檢測模型SSD或者YOLO來完成。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

DataWhale–CV入門訓練

DataWhale–CV入門訓練

賽題目的

賽題數據來源

評測標準

結果提交

解題思路

druid數據源 xml配置

街景字符編碼識別（task6）模型集成

找到數組中第k大值的位置，字符串中單詞替換

OPPO筆試把字符串分隔成逗號分隔成數組 int，string

關於動態規劃的專題習集，C++ 換硬幣，揹包問題

街景字符編碼識別（四）—— 模型訓練與驗證

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結