TextCohesion: Detecting Text for Arbitrary Shapes

原創

2020-06-16 15:18

TextCohesion: Detecting Text for Arbitrary Shapes

浙大吳威佳

TextCohesion是像素級的方法，將文本實例分割成5個關鍵組件：一個文本骨架Text Skeleton和四個方向像素區域four Directional Pixel Regions。這些組件比整個文本實例更容易處理。設計了一個置信度評分機制用來過濾掉類似於文本的物體。當背景很複雜時，本方法可以很好地集成文本上下文。在曲形文本呢數據集Total-Text和SCUT-CTW1500達到了state-of-the-art性能，分別是84.6%和86.3%。

一、第一個挑戰是基於迴歸的方法：不規則形狀文本檢測。

二、第二個挑戰是基於迴歸和基於分割的方法無法分離靠得很近的文本。

三、由於缺乏上下文信息，基於迴歸和基於分割的方法都可能有false positive。

本文將文本實例看成是文本骨架和四個方向像素的結合，前者大致表示形狀和大小，後者負責從四個方向細化文本區域和邊緣。一個像素屬於多個方向則表示它更有機會被找到。文本骨架平局置信度大於閾值0.5則被認爲是候選文本。

置信度評分機制：使用文本骨架的平均置信度得分來過濾掉false positives。

貢獻：

提出了使用文本骨架、四個方向像素區域和置信度評分機制來預測文本，在曲形文本超過現有方法。
對所有形狀的文本效果好
方法可以進一步過濾掉類似字符的物體。

兩類方法：基於迴歸和基於分割（像素）：regression-based and pixel-based.

對於TS，我們使用由幾個點（例如15）鏈接的線來粗略地表示文本實例。然後每個DPR被TS點分成幾個單元。兩個相鄰點之間的切線值確定哪個相應的單元落入。文本區域（TR）是一個限制TS範圍的掩碼。之後，應用置信度評分來過濾掉誤報。最後，將剩餘的TS，TR和DPR組合在一起形成文本(先過濾後形成文本)。整個過程如圖3所示。

所有TS均由置信度評分驗證機制。

backbone: VGG16。還插入了橫向連接以豐富特徵，圖4中顯示了特徵提取器。在第一階段，圖像被下采樣到多級特徵。其次，特徵逐漸上採樣到原始大小並與前一階段的相應輸出混合。然後生成幾個映射以表示TS，DPR和TR。

TR是啥？

怎麼生成TS和dpr標籤

如圖6（a）所示，我們使用TS來粗略地表示候選文本。具體地，TS中的點被視爲一系列起點，以便將來搜索相應的感興趣區域。此外，TS還用於過濾誤報。 與整個文本實例相比，TS較少被相鄰邊界混淆，更容易定位，並且可以近似地表示原始文本的形狀。因此，我們將每個TS視爲一個候選。

DPRs被用於驚喜地分割邊緣。可能有像素在多個地方發生重疊。被多個方向確定的像素的置信度更高，因此我們的方法更魯棒。

爲了過濾掉false positives，將TS中的平均置信度當作是實際文本的概率。

在synthtext上預訓練

在候選被選擇之後，將文本實例初始化爲其對應的TS，然後沿着屬於該TS的DPR逐漸向外擴散。在此過程中，將首先在該方向上搜索屬於特定DPR的像素（例如，將首先沿着TS搜索向上區域），然後將有其他機會從不同的搜索路徑（例如，向上區域）進行補充。將通過搜索左右區域來補充）。換句話說，像素的方向不是唯一的，文本實例也是如此有很多機會完全恢復。

可轉移的置信度評分機制：可以應用到別的方法當中。

提出的方法可能是使其在具有任意形狀，專用邊界和誤報困境的文本上合理的關鍵因素

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

TextCohesion: Detecting Text for Arbitrary Shapes

如何使用 JS 判斷用戶是否處於活躍狀態

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

Synthetic MLT Data

YOLO翻譯

ctc安裝

CVPR2020文章核心思想總結

TextCohesion: Detecting Text for Arbitrary Shapes

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結