【天池—街景字符编码识别】Task 1 赛题理解

原創

2020-05-21 06:16

文章目录

1 比赛说明

比赛链接：https://tianchi.aliyun.com/competition/entrance/531795/introduction
比赛任务：以计算机视觉中字符识别为背景，要求参赛者预测真实场景下的字符识别，这是一个典型的字符识别问题——零基础入门CV赛事之街景字符识别。

2 数据说明

2.1 数据来源

来源于http://ufldl.stanford.edu/housenumbers/的公开数据集。

2.2 数据集

训练集：3W张照片
验证集：1W张照片
测试集A：4W张照片
测试集B：4W张照片
每张照片包括颜色图像和对应的编码类别和具体位置，如下图所示：

2.3 数据标注信息（json文件）

用记事本或Notepad++打开数据的json文件，部分数据如下所示：

{"000000.png": {"height": [219, 219], "label": [1, 9], "left": [246, 323], "top": [77, 81], "width": [81, 96]}, 
"000001.png": {"height": [32, 32], "label": [2, 3], "left": [77, 98], "top": [29, 25], "width": [23, 26]}, 
"000002.png": {"height": [15, 15], "label": [2, 5], "left": [17, 25], "top": [5, 5], "width": [8, 9]},
"000003.png": {"height": [34, 34], "label": [9, 3], "left": [57, 72], "top": [13, 13], "width": [15, 13]},
 "000004.png": {"height": [46, 46], "label": [3, 1], "left": [52, 74], "top": [7, 10], "width": [21, 15]}, 
"000005.png": {"height": [21, 21], "label": [3, 3], "left": [28, 38], "top": [6, 8], "width": [10, 11]}, 
"000006.png": {"height": [32, 32], "label": [2, 8], "left": [35, 47], "top": [10, 11], "width": [13, 13]}, 
"000007.png": {"height": [15, 15, 15], "label": [7, 4, 4], "left": [17, 25, 31], "top": [4, 4, 3], "width": [7, 6, 7]}, 
"000008.png": {"height": [24, 24, 24], "label": [1, 2, 8], "left": [19, 29, 38], "top": [4, 4, 5], "width": [14, 13, 17]},

将其数据结构理解成”嵌套的字典“，那么每一张图片有height、label、left、top、width五种信息，其分别代表：top：左上角座标X ； height：字符高度； left：左上角最表Y； width：字符宽度； label：字符编码。另外label表示该图片含有的数字（字符）。
字符的座标具体如下所示：

3 评价标准

评价标准为准确率，选手提交结果与实际图片的编码进行对比，以编码整体识别准确率为评价指标，结果越大越好，具体计算公式如下：
$score = \frac {编码识别正确的数量}{测试集图片数量}$
要注意：任何一个字符错误都为错误。

4 提交的结果形式

提交前请确保预测结果的格式与sample_submit.csv中的格式一致，以及提交文件后缀名为csv。

file_name, file_code
0010000.jpg,451
0010001.jpg,232
0010002.jpg,45
0010003.jpg,67
0010004.jpg,191
0010005.jpg,892

5 解题思路（重点）

赛题本质是分类问题，需要对图片的字符进行识别。但赛题给定的数据图片中不同图片中包含的字符数量不等。图片的字符个数为从2个到6个不等。因此本次赛题的难点是需要对不定长的字符进行识别，与传统的图像分类任务有所不同。

5.1 简单入门思路：定长字符识别

定长文字的识别相对简单，应用场景也比较局限，最典型的场景就是验证码的识别、机动车车牌的识别。由于字符数量是已知的、固定的，因此，网络结构比较简单，一般构建3层卷积层，2层全连接层便能满足“定长文字”的识别。
将赛题抽象为一个定长字符识别问题，在赛题数据集中大部分图像中字符个数为2-4个，最多的字符个数为6个。因此可以对于所有的图像都抽象为6个字符的识别问题，字符23填充为23XXXX，字符231填充为231XXX。
经过填充之后，原始的赛题可以简化了6个字符的分类问题。在每个字符的分类中会进行11个类别的分类，假如分类为填充字符，则表明该字符为空。
一些定长字符识别的例子：

5.2 专业字符识别思路：不定长字符识别

不定长文字在现实中大量存在，例如印刷文字、广告牌文字等，由于字符数量不固定、不可预知，因此，识别的难度也较大，这也是目前研究文字识别的主要方向。下面介绍不定长文字识别的常用方法：LSTM+CTC、CRNN、chinsesocr。
在字符识别研究中，有特定的方法来解决此种不定长的字符识别问题，比较典型的有CRNN字符识别模型。在本次赛题中给定的图像数据都比较规整，可以视为一个单词或者一个句子。
一些不定长字符识别的例子：

5.3 专业分类思路：检测再识别

在赛题数据中已经给出了训练集、验证集中所有图片中字符的位置，因此可以首先将字符的位置进行识别，利用物体检测的思路完成。此种思路需要参赛者构建字符检测模型，对测试集中的字符进行识别。参赛者可以参考物体检测模型SSD或者YOLO来完成。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【天池—街景字符编码识别】Task 1 赛题理解

文章目录

1 比赛说明

2 数据说明

2.1 数据来源

2.2 数据集

2.3 数据标注信息（json文件）

3 评价标准

4 提交的结果形式

5 解题思路（重点）

5.1 简单入门思路：定长字符识别

5.2 专业字符识别思路：不定长字符识别

5.3 专业分类思路：检测再识别

vue项目获取富文本编辑器wangEditor内容导出为word（html转word格式并下载）

dotnet C# 创建 X11 应用时设置窗口背景颜色

TDengine docker安装方法

vue3组件通信与props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的发布时间

工作中用到的脚本合集

合并代码时Beyond Compare设置

go语言 defer延迟机制

Python基礎：Python列表與NumPy數組和矩陣的異同

大學生常見競賽重要程度排序情況

機器學習（一）之 2萬多字的監督學習模型總結V1.0：K近鄰、線性迴歸、嶺迴歸、樸素貝葉斯模型、決策樹、隨機森林、梯度提升迴歸樹、SVM、神經網絡

【天池—街景字符編碼識別】Task3 字符識別模型

OpenGL筆記（一） | 配置OpenGL--Python的步驟和出現的錯誤

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結