OCR數據集

OCR數據集

原創

2019-08-15 03:45

文本識別數據集：
1.SynthText in the Wild dataset
This dataset consists of 8 million images covering 90k English words, and includes the training, validation and test splits used in our work.
該數據集包含8百萬張圖片，涵蓋9萬個英文單詞。出自牛津大學。
下載地址：http://www.robots.ox.ac.uk/~vgg/data/scenetext/

2.SyntheticChineseStringDataset
該數據集是中文識別數據集，包含360多萬張訓練圖片，5824個字符，不過場景比較簡單，圖片是白底黑字。
下載地址：https://pan.baidu.com/s/1dFda6R3

3.COCO-TEXT
英文數據集，包括63686幅圖像，173589個文本實例，包括手寫版和打印版，清晰版和非清晰版。文件大小12.58GB，訓練集：43686張，測試集：10000張，驗證集：10000張。
下載地址：https://vision.cornell.edu/se3/coco-text-2/

4.Google FSNS(谷歌街景文本數據集)
該數據集是從谷歌法國街景圖片上獲得的一百多萬張街道名字標誌，每一張包含同一街道標誌牌的不同視角，圖像大小爲600*150，訓練集1044868張，驗證集16150張，測試集20404張。
下載地址：http://rrc.cvc.uab.es/?ch=6&com=downloads

5.Total-Text
該數據集共1555張圖像，11459文本行，包含水平文本，傾斜文本，彎曲文本。文件大小441MB。大部分爲英文文本，少量中文文本。訓練集：1255張測試集：300
下載地址：http://www.cs-chan.com/source/ICDAR2017/totaltext.zip

6.Reading Chinese Text in the Wild(RCTW-17)
該數據集包含12263張圖像，訓練集8034張，測試集4229張，共11.4GB。大部分圖像由手機相機拍攝，含有少量的屏幕截圖，圖像中包含中文文本與少量英文文本。圖像分辨率大小不等。
下載地址：http://rctw.vlrlab.net/dataset/

7.Chinese Text in the Wild(CTW)
該數據集包含32285張圖像，1018402箇中文字符(來自於騰訊街景), 包含平面文本，凸起文本，城市文本，農村文本，低亮度文本，遠處文本，部分遮擋文本。圖像大小2048*2048，數據集大小爲31GB。以(8:1:1)的比例將數據集分爲訓練集(25887張圖像，812872個漢字)，測試集(3269張圖像，103519個漢字)，驗證集(3129張圖像，103519個漢字)。
下載地址：https://ctwdataset.github.io/

8.中文數據集的自動合成
github地址：https://github.com/JarveeLee/SynthText_Chinese_version

9.OCR數據集list
github地址：https://github.com/xylcbd/ocr-open-dataset

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

HTML頁面關於高分屏的設置

北歐瑞典挪威芬蘭瑞士TikTok海外網紅與YouTube博主的合作模式

歐洲英國德國法國TikTok與YouTube海外網紅達人的完美合作策略

druid數據源 xml配置

基數排序之LSD實現

OCR數據集

tvm部署c++神經網絡前向代碼到android端

解決vim編輯器顯示亂碼

Largest Rectangle in Histogram

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結