Datawhale 零基礎入門CV賽事-Task1 賽題理解

原創

2020-05-21 11:51

街道字符識別項目學習筆記-Task1 賽題理解

寫在開始

筆者雖然有些cv基礎，但是很少代碼實戰，想要通過這次機會多多實踐，通過文章記錄這次的學習，希望通過此次學習能有所成長，有什麼錯誤也歡迎大家批評指正。

賽題鏈接：零基礎入門CV賽事- 街景字符編碼識別

1 賽題理解

賽題名稱：零基礎入門CV之街道字符識別
賽題任務：賽題以計算機視覺中字符識別爲背景，要求選手預測街道字符編碼，這是一個典型的字符識別問題。
賽題數據採用公開數據集SVHN

1.1 數據標籤

對於訓練數據每張圖片將給出對於的編碼標籤，和具體的字符框的位置（訓練集、驗證集都給出字符位置），可用於模型訓練：

Field	Description
top	左上角座標X
height	字符高度
left	左上角最表Y
width	字符寬度
label	字符編碼

字符的座標具體如下所示：

在比賽數據（訓練集和驗證集）中，同一張圖片中可能包括一個或者多個字符，因此在比賽數據的JSON標註中，會有兩個字符的邊框信息：

原始圖片	圖片JSON標註

1.2 評測指標

選手提交結果與實際圖片的編碼進行對比，以編碼整體識別準確率爲評價指標。任何一個字符錯誤都爲錯誤，最終評測指標結果越大越好，具體計算公式如下：
Score=編碼識別正確的數量/測試集圖片數量

1.3 讀取數據

爲了方便大家進行數據讀取，在此我們給出JSON中標籤的讀取方式：

import json
train_json = json.load(open('../input/train.json'))

# 數據標註處理
def parse_json(d):
   arr = np.array([
       d['top'], d['height'], d['left'],  d['width'], d['label']
   ])
   arr = arr.astype(int)
   return arr

img = cv2.imread('../input/train/000000.png')
arr = parse_json(train_json['000000.png'])

plt.figure(figsize=(10, 10))
plt.subplot(1, arr.shape[1]+1, 1)
plt.imshow(img)
plt.xticks([]); plt.yticks([])

for idx in range(arr.shape[1]):
   plt.subplot(1, arr.shape[1]+1, idx+2)
   plt.imshow(img[arr[0, idx]:arr[0, idx]+arr[1, idx],arr[2, idx]:arr[2, idx]+arr[3, idx]])
   plt.title(arr[4, idx])
   plt.xticks([]); plt.yticks([])

1.3 解題思路

賽題思路分析：賽題本質是分類問題，需要對圖片的字符進行識別。但賽題給定的數據圖片中不同圖片中包含的字符數量不等，如下圖所示。有的圖片的字符個數爲2，有的圖片字符個數爲3，有的圖片字符個數爲4。

字符屬性	圖片
字符：42 字符個數：2
字符：241 字符個數：3
字符：7358 字符個數：4

因此本次賽題的難點是需要對不定長的字符進行識別，與傳統的圖像分類任務有所不同。爲了降低參賽難度，我們提供了一些解題思路供大家參考：

簡單入門思路：定長字符識別

可以將賽題抽象爲一個定長字符識別問題，在賽題數據集中大部分圖像中字符個數爲2-4個，最多的字符個數爲6個。
因此可以對於所有的圖像都抽象爲6個字符的識別問題，字符23填充爲23XXXX，字符231填充爲231XXX。

經過填充之後，原始的賽題可以簡化了6個字符的分類問題。在每個字符的分類中會進行11個類別的分類，假如分類爲填充字符，則表明該字符爲空。

專業字符識別思路：不定長字符識別

在字符識別研究中，有特定的方法來解決此種不定長的字符識別問題，比較典型的有CRNN字符識別模型。
在本次賽題中給定的圖像數據都比較規整，可以視爲一個單詞或者一個句子。

專業分類思路：檢測再識別

在賽題數據中已經給出了訓練集、驗證集中所有圖片中字符的位置，因此可以首先將字符的位置進行識別，利用物體檢測的思路完成。

此種思路需要參賽選手構建字符檢測模型，對測試集中的字符進行識別。選手可以參考物體檢測模型SSD或者YOLO來完成。

1.7 本章小節

綜上所示，本次賽題雖然是一個簡單的字符識別問題，但有多種解法可以使用到計算機視覺領域中的各個模型，是非常適合大家入門學習的。
三種解決思路的難度從低到高，因此建議入門學習的同學可以先學習定長字符識別的思路。在文檔之後的內容中我們也會以定長字符識別爲例，讓大家逐漸入門計算機視覺。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Datawhale 零基礎入門CV賽事-Task1 賽題理解

街道字符識別項目學習筆記-Task1 賽題理解

寫在開始

1 賽題理解

1.1 數據標籤

1.2 評測指標

1.3 讀取數據

1.3 解題思路

1.7 本章小節

電子科技大學計算機科學與技術就讀體驗

Golang爬蟲代理接入的技術與實踐

數學必備知識

論文閱讀 | CenterNet：Keypoint Triplets for Object Detection

《統計學習方法》第二章感知機 Perceptron 總結及其代碼實現

斯坦福cs224n assignment1

Mac OS 運行opencv-python 顯示圖片手動關閉後，程序卡死問題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結