曠視科技提出SPCNet:一種任意形狀的場景文本檢測算法

【AAAI 2019】SPCNet

曠視科技提出SPCNet:一種任意形狀的場景文本檢測算法

這篇文章是謝恩澤在face++實習期間完成的一個工作,被AAAI2019接收,主要是做任意形狀的場景文本檢測,同時抑制錯誤樣本的檢測。

arXiv:https://arxiv.org/abs/1811.08605

Motivation

過去場景文字檢測模型大多分爲如下兩類:1,基於語義分割的檢測。2,基於邊界框迴歸的檢測。

這些方法的劣勢在於不能很好的處理彎曲文字,而彎曲文字在自然場景中也是大量存在的。

我們考慮到彎曲文字可以通過實例分割的方法去處理,於是基於Mask R-CNN 去做。

ECCV2018有一篇Mask Text Spottor也是用了mask rcnn做了端到端識別,比我們早一點,做研究有局部撞車是常態了。。。不過eccv那篇對Maskrcnn本身並未做過多修改,創新之處主要在識別部分。

言歸正傳,本文的SPCnet將Mask R-CNN作爲baseline,同時引入了text context 模塊和re-score機制,從而提高檢測準確率,降低FP的出現。

曠視科技提出SPCNet:一種任意形狀的場景文本檢測算法

這張圖是re-score模塊的可視化圖,可以看到,mask rcnn將水平box的分類分數最終的score,對於傾斜文本不是很友好,並且可能會引入fp,我們在這裏將語義分割圖上的響應和原本的score融合起來,得到的fus-score可以緩解mask rcnn直接移植到文字檢測上分類分數不準的問題。

曠視科技提出SPCNet:一種任意形狀的場景文本檢測算法

整個網絡流程如下,a是fpn結構,b是text context(TCM)模塊,d是TCM具體的方法。

整個方法在mask rcnn的基礎上多了一個分支做文字的語義分割,並把語義分割的中間特徵和檢測分支的特徵融合起來,再把語義分割的預測結果作爲一個attention mask 乘回feature map,起到一個對特徵attention的作用。

曠視科技提出SPCNet:一種任意形狀的場景文本檢測算法

這塊是重打分的一個可視化說明,綠色的是水平box,紅色的是instance seg的結果,下面的是全局語義分割的結果,我們把instance seg的結果投影到語義分割圖上,並在該區域內算一個響應值,得到instance score,並和原來的classification score融合得到最終的score。

曠視科技提出SPCNet:一種任意形狀的場景文本檢測算法

該部分是label generation部分,主要是bounding box, instance seg和semantic seg的label。

消融實驗

我們在icdar2017 val上做了實驗,發現TCM和RS分別能提高模型的最終結果。在recall保持一致的情況下precision漲點,說明能有效抑制FP。

曠視科技提出SPCNet:一種任意形狀的場景文本檢測算法

在icdar17,15,13和total-text(多語言,多方向,水平文本,彎曲文本)上都是state-of-the-art,充分證明了該方法的有效性。

曠視科技提出SPCNet:一種任意形狀的場景文本檢測算法

曠視科技提出SPCNet:一種任意形狀的場景文本檢測算法

PS:ic17上文字scale比例差距很大,所以隨便寫了個簡陋的多尺度測試居然漲4個點。。。。。

一些可視化效果圖:

曠視科技提出SPCNet:一種任意形狀的場景文本檢測算法

在ICDAR2015上對比一些經典方法的FP情況,可以看到我們的方法可以有效抑制FP。

曠視科技提出SPCNet:一種任意形狀的場景文本檢測算法

總結:這個工作是的第一份正兒八經的科研工作,在曠視大約兩個半月時間完成,還是比較欣慰的,二作是一個本科生,也參與了很多工作在裏面,同時也感謝很多人給予了不少幫助。

希望自己以後能在計算機視覺領域多發表高水平paper,同時歡迎同行多多交流。下面是我的知乎原文鏈接,歡迎評論交流。點擊閱讀原文,也可以直接訪問。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章