TextCohesion: Detecting Text for Arbitrary Shapes

                                                             TextCohesion: Detecting Text for Arbitrary Shapes

                                                                                       浙大    吳威佳

 

TextCohesion是像素級的方法,將文本實例分割成5個關鍵組件:一個文本骨架Text Skeleton和四個方向像素區域four Directional Pixel Regions。這些組件比整個文本實例更容易處理。設計了一個置信度評分機制用來過濾掉類似於文本的物體。當背景很複雜時,本方法可以很好地集成文本上下文。在曲形文本呢數據集Total-Text和SCUT-CTW1500達到了state-of-the-art性能,分別是84.6%和86.3%。

一、第一個挑戰是基於迴歸的方法:不規則形狀文本檢測。

二、第二個挑戰是基於迴歸和基於分割的方法無法分離靠得很近的文本。

三、由於缺乏上下文信息,基於迴歸和基於分割的方法都可能有false positive。

本文將文本實例看成是文本骨架和四個方向像素的結合,前者大致表示形狀和大小,後者負責從四個方向細化文本區域和邊緣。一個像素屬於多個方向則表示它更有機會被找到。文本骨架平局置信度大於閾值0.5則被認爲是候選文本。

置信度評分機制:使用文本骨架的平均置信度得分來過濾掉false positives。

貢獻:

  1. 提出了使用文本骨架、四個方向像素區域和置信度評分機制來預測文本,在曲形文本超過現有方法。
  2. 對所有形狀的文本效果好
  3. 方法可以進一步過濾掉類似字符的物體。

兩類方法:基於迴歸和基於分割(像素):regression-based and pixel-based.

對於TS,我們使用由幾個點(例如15)鏈接的線來粗略地表示文本實例。 然後每個DPR被TS點分成幾個單元。 兩個相鄰點之間的切線值確定哪個相應的單元落入。 文本區域(TR)是一個限制TS範圍的掩碼。 之後,應用置信度評分來過濾掉誤報。 最後,將剩餘的TS,TR和DPR組合在一起形成文本(先過濾後形成文本)。 整個過程如圖3所示。

所有TS均由置信度評分驗證機制。

backbone: VGG16。還插入了橫向連接以豐富特徵,圖4中顯示了特徵提取器。在第一階段,圖像被下采樣到多級特徵。 其次,特徵逐漸上採樣到原始大小並與前一階段的相應輸出混合。 然後生成幾個映射以表示TS,DPR和TR。

TR是啥?

怎麼生成TS和dpr標籤

如圖6(a)所示,我們使用TS來粗略地表示候選文本。 具體地,TS中的點被視爲一系列起點,以便將來搜索相應的感興趣區域。 此外,TS還用於過濾誤報。 與整個文本實例相比,TS較少被相鄰邊界混淆,更容易定位,並且可以近似地表示原始文本的形狀。 因此,我們將每個TS視爲一個候選。

DPRs被用於驚喜地分割邊緣。可能有像素在多個地方發生重疊。被多個方向確定的像素的置信度更高,因此我們的方法更魯棒。

爲了過濾掉false positives,將TS中的平均置信度當作是實際文本的概率。

在synthtext上預訓練

在候選被選擇之後,將文本實例初始化爲其對應的TS,然後沿着屬於該TS的DPR逐漸向外擴散。在此過程中,將首先在該方向上搜索屬於特定DPR的像素(例如,將首先沿着TS搜索向上區域),然後將有其他機會從不同的搜索路徑(例如,向上區域)進行補充。 將通過搜索左右區域來補充)。 換句話說,像素的方向不是唯一的,文本實例也是如此有很多機會完全恢復。

可轉移的置信度評分機制:可以應用到別的方法當中。

提出的方法可能是使其在具有任意形狀,專用邊界和誤報困境的文本上合理的關鍵因素

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章