曠視科技提出SPCNet：一種任意形狀的場景文本檢測算法

原創

osc_i1dzen1k

2021-01-30 09:28

【AAAI 2019】SPCNet

這篇文章是謝恩澤在face++實習期間完成的一個工作，被AAAI2019接收，主要是做任意形狀的場景文本檢測，同時抑制錯誤樣本的檢測。

arXiv：https://arxiv.org/abs/1811.08605

Motivation

過去場景文字檢測模型大多分爲如下兩類：1，基於語義分割的檢測。2，基於邊界框迴歸的檢測。

這些方法的劣勢在於不能很好的處理彎曲文字，而彎曲文字在自然場景中也是大量存在的。

我們考慮到彎曲文字可以通過實例分割的方法去處理，於是基於Mask R-CNN 去做。

ECCV2018有一篇Mask Text Spottor也是用了mask rcnn做了端到端識別，比我們早一點，做研究有局部撞車是常態了。。。不過eccv那篇對Maskrcnn本身並未做過多修改，創新之處主要在識別部分。

言歸正傳，本文的SPCnet將Mask R-CNN作爲baseline，同時引入了text context 模塊和re-score機制，從而提高檢測準確率，降低FP的出現。

這張圖是re-score模塊的可視化圖，可以看到，mask rcnn將水平box的分類分數最終的score，對於傾斜文本不是很友好，並且可能會引入fp，我們在這裏將語義分割圖上的響應和原本的score融合起來，得到的fus-score可以緩解mask rcnn直接移植到文字檢測上分類分數不準的問題。

整個網絡流程如下，a是fpn結構，b是text context(TCM)模塊，d是TCM具體的方法。

整個方法在mask rcnn的基礎上多了一個分支做文字的語義分割，並把語義分割的中間特徵和檢測分支的特徵融合起來，再把語義分割的預測結果作爲一個attention mask 乘回feature map,起到一個對特徵attention的作用。

這塊是重打分的一個可視化說明，綠色的是水平box，紅色的是instance seg的結果，下面的是全局語義分割的結果，我們把instance seg的結果投影到語義分割圖上，並在該區域內算一個響應值，得到instance score,並和原來的classification score融合得到最終的score。

該部分是label generation部分，主要是bounding box, instance seg和semantic seg的label。

消融實驗

我們在icdar2017 val上做了實驗，發現TCM和RS分別能提高模型的最終結果。在recall保持一致的情況下precision漲點，說明能有效抑制FP。

在icdar17,15,13和total-text(多語言，多方向，水平文本，彎曲文本)上都是state-of-the-art，充分證明了該方法的有效性。

PS：ic17上文字scale比例差距很大，所以隨便寫了個簡陋的多尺度測試居然漲4個點。。。。。

一些可視化效果圖：

在ICDAR2015上對比一些經典方法的FP情況，可以看到我們的方法可以有效抑制FP。

總結：這個工作是的第一份正兒八經的科研工作，在曠視大約兩個半月時間完成，還是比較欣慰的，二作是一個本科生，也參與了很多工作在裏面，同時也感謝很多人給予了不少幫助。

希望自己以後能在計算機視覺領域多發表高水平paper，同時歡迎同行多多交流。下面是我的知乎原文鏈接，歡迎評論交流。點擊閱讀原文，也可以直接訪問。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

曠視科技提出SPCNet：一種任意形狀的場景文本檢測算法

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

HTML 00 Tutorial

全面系統的AI學習路徑，幫助普通人也能玩轉AI

從零開始：使用 Playwright 腳本錄製實現自動化測試

uni-app實現上拉加載

Kafka 發送消息過程中攔截器的用途？

圖像分類：來自13個Kaggle項目的經驗總結

大流量網站性能優化：一步一步打造一個適合自己的BigRender插件

行業大咖解析·TDChain是什麼？怎麼玩？靠譜嗎？

曠視科技提出SPCNet：一種任意形狀的場景文本檢測算法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結