TextScanner 閱讀筆記

原創

2020-02-21 20:29

Textscanner 閱讀筆記

Motivaction:

(1):在文本識別領域，從語音識別，以及NLP中學來的基於RNN-attention-based的方法主宰了文本識別領域，在大多數情況下，基於RNN注意的方法通常效果很好。但是，當背景中出現噪音或文本形狀不規則時，注意機制可能無法使估計的注意圖的中心對準錯誤的位置，從而導致字符順序和類別錯誤（請參見圖1）。更嚴重的是，由於RNN模塊中的循環存儲機制，此類錯誤將累積並傳播，使情況變得更糟。

(2):基於語義分割的算法探索了不同的方式，並且展現出了對不同形狀（水平，定向和彎曲）文本的更強適應性。然而，由於不正確的二值化會導致這樣的尷尬，因此很難成功地將每個字符與分割圖分開：一個字符可能會分成多個部分，或者多個字符可能會粘在一起（見圖1）。在這些情況下，字符數量和類別的預測將是錯誤的。總之，現有的方法，無論是基於RNN注意力還是基於語義分割，都不能令人滿意地解決場景文本識別中的難題。

圖（1）

主要貢獻：

（1）提出了一種新穎的文本識別框架，該框架可預測具有兩個單獨分支的字符的類別信息和幾何信息（位置和順序）。

（2）我們設計了一種相互監督的機制，使該框架能夠利用生成的數據和真實數據進行來訓練，解決基於字符訓練，數據集不足的問題。

（3）提出的TextScanner在公開數據集上達到了最先進的或極具競爭力的性能。

（4）TextScanner對較長和更復雜的文本，具有更強的適應性。

詳細解讀

網絡結構：

（1）class分支

Class分支產生字符分割圖G，大小爲（h*w*c）,h,w爲長寬，c通道數（大小爲總共字符有多少個類別，以及是否爲背景圖，分割圖G是cnn的主幹網絡提取特徵後，再分別經過大小爲3*3，和1*1大小的卷積核後再經過softmax最後產生分割圖G。

Geometry分支

該部分分爲localization map Q,和order segmentation map S,Q圖的大小爲（h*w）,同樣的類似於classify分支，經過主幹網絡提取的特徵feature部分，圖中綠色部分後，經過sigmod激活函數得到。而圖S如圖所示，主幹網絡得到feature後經過FPN,注意上層中採用GRU模塊，最後得到的S圖和Q圖經過Q*S,最終得到order map H,H=Q*S

實驗結果：

實驗表明，所提出的TextScanner在公共基準上達到了最先進的或極具競爭力的性能.TextScanner對更長，更復雜的文本（例如中文腳本）表現出更強的適應性。實驗結果清楚地表明瞭幾何分支及其解碼過程（表3中的第二行和第三行）帶來的改進。由於順序圖確保以正確的順序掃描字符，因此識別性能顯着提高，尤其是在不規則數據集上：IC15上爲7.4％，SVTP上爲10.2％。

MrYH23

發佈了71 篇原創文章 · 獲贊 16 · 訪問量 3萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

TextScanner 閱讀筆記

一個簡單的MD5加鹽

C# 代碼學習

藍橋15屆stema編程題密碼鎖-動態規劃 C++和Python最後一道題

2021看雪SDC議題回顧 | SaTC：一種全新的物聯網設備漏洞自動化挖掘方法

Kafka存儲機制

aws語音呼叫調用，告警電話

【轉】[C#] WebAPI 防止併發調用二（冥等性）

C#/.NET/.NET Core優秀項目和框架2024年4月簡報

HTTP URL 詳解

得物 ZooKeeper SLA 也可以 99.99%

Real-time Scene Text Detection with Differentiable Binarization 閱讀筆記

c++ 中的stack 和queue容器

c++ vector容器最全教程

STL 基本概念與基本語法初嘗試

c++中文件的讀寫

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結