自然場景文本處理論文整理 (5)Detecting Curve Text in the Wild: New Dataset and New Solution

這篇文章是在自然場景文本處理中針對彎曲問題做的非常好的一篇文章。後面打算先用這篇論文來做實驗。
paper:https://arxiv.org/abs/1712.02170
github:https://github.com/Yuliang-Liu/Curve-Text-Detector

一、摘要

場景文本檢測近年來取得了很大進展。 檢測方式從軸對齊矩形演變爲旋轉矩形,進一步演變爲四邊形。 但是,當前數據集包含非常少的曲線文本,這種現象可以在場景圖像(如招牌,產品名稱等)中廣泛觀察到。 爲了提出在廣泛的閱讀曲線文本的問題,在本文中,我們構建了一個名爲CTW1500的曲線文本數據集,其中包括1,500個圖像中的超過10k文本註釋(1000個用於訓練,500個用於測試)。 基於該數據集,我們開創性地提出了一種基於多邊形的曲線文本檢測器(CTD),它可以直接檢測曲線文本而無需經驗組合。此外,通過無縫地集成循環橫向和縱向偏移連接(TLOC),所提出的方法可以是端對端可訓練的,以學習位置偏移之間的固有連接。這允許CTD探索上下文信息而不是獨立地預測點,從而導致更平滑和準確的檢測。我們還提出了兩種簡單但有效的後處理方法,即非多邊抑制(NPS)和多邊形非最大抑制(PNMS),以進一步提高檢測精度。此外,本文提出的方法是以通用的方式設計的,也可以用矩形或四邊形邊界框進行訓練而無需額外的努力。 CTW-1500的實驗結果表明,我們只使用輕骨架的方法可以大大優於最先進的方法。 通過僅在曲線或非曲線子集中進行評估,CTD + TLOC仍然可以獲得最佳結果。 代碼可在https://github.com/Yuliang-Liu/Curve-Text-Detector獲得。

二、介紹

據觀察,來自新興數據集的文本邊界框的標籤也從矩形到柔性四邊形發展。場景文本檢測方法的進步也從基於軸對齊的矩形到基於旋轉的矩形和基於四邊形而變化。 一旦邊界框變得更緊湊和靈活,它可以提高檢測置信度,降低被後處理抑制的風險,並有利於後續的文本識別。
爲了識別場景文本,強烈要求文本可以提前緊密且穩健地進行本地化。然而,當前數據集具有非常少的曲線文本,並且用四邊形單獨的矩形標記這樣的文本是有缺陷的。 例如,如圖1所示,使用曲線邊界框有三個顯着的優點:
•避免不必要的重疊
•減少背景噪音。
•避免多個文本行
根據我們的觀察,對於所有類型的曲線文本區域,14點多邊形足以定位它們,如圖1和圖2所示。通過使用引用的等分線,它不需要太多的人力來標記。

與傳統的檢測方法不同,CTD將分支的寬度/高度偏移預測分開,可以在速度爲13 FPS的情況下以低於4GB的視頻內存運行。 此外,網絡架構可以與我們提出的巧妙方法無縫集成,即橫向和縱向偏移連接(TLOC),它使用RNN來學習定位點之間的固有連接,使檢測更加準確和平滑。 CTD也被設計爲通用方法,可以使用矩形和四邊形邊界框進行訓練,無需額外的手動標籤。 提出了兩種簡單但有效的後處理方法,即非多邊形抑制(NPS)和多邊形非最大抑制(PNMS),以進一步加強CTD的泛化能力。

本文提供標籤工具手動標記文本,以及標註曲線文本的方法。

3、CTW1500 Dataset and Annotation

數據描述。 CTW1500數據集包含1500個圖像,10,751個邊界框(3,530個是曲線邊界框),每個圖像至少有一個曲線文本。 這些圖像是從互聯網手動收集的,圖像庫如谷歌Open-Image [18]和我們自己的手機攝像頭收集的數據,其中還包含大量水平和多向文本。 圖像的分佈是多種多樣的,包括室內,室外,天生數字,模糊,透視畸變文本等。 此外,我們的數據集是多語言的,主要是中文和英文文本。

我們使用我們的標籤工具手動標記文本。對於標記水平或四邊形的文本,只需要兩次或四次點擊。爲了包圍曲線文本,我們創建十條等距參考線以幫助標記額外的10個點(我們實際上發現額外的10個點足以標記所有類型的 曲線文字如圖2所示。 我們使用等距線的原因是爲了簡化標記工作,減少主觀干擾。 爲了評估定位性能,我們只需遵循PASCAL VOC協議[7],該協議使用0.5 IoU閾值來確定真或假陽性。 唯一的區別是我們計算多邊形之間的精確交叉(IoU)而不是軸對齊的矩形。
這裏寫圖片描述
標記過程如圖3所示。首先,我們單擊標記爲1,2,3,4的四個頂點,並自動創建引用的虛線(藍色)。 將鼠標的一條參考線(水平和垂直黑色虛線)移動到適當的位置(兩條參考線的交點),然後單擊以確定下一個點,依此類推剩餘點。 我們粗略計算表1中三種形狀文本的標記時間,其中顯示標記一條曲線文本比使用四邊形標記消耗大約三倍的時間。 可以從https://github.com/Yuliang-Liu/Curve-Text-Detector下載CTW1500數據集。

4、網絡框架:

我們CTD的整體架構如圖4所示,它可以分爲三個部分:骨骼,RPN和迴歸模塊。 Backbone通常採用流行的ImageNet [5]預訓練模型,然後使用相應的模型進行微調,如VGG-16,ResNet 等。 區域提議網絡(RPN)和迴歸模塊分別連接到骨幹網; 前者產生粗略回憶文本的提議,而後者則精心調整提案以使其更加嚴格。

在本文中,我們使用簡化的ResNet-50(簡單地刪除最後一個殘餘塊)作爲我們的主幹,這需要更少的內存並且可以更快。 在RPN階段,我們使用默認的矩形錨來粗略調用文本,但我們設置了一個非常寬鬆的RPN-NMS閾值以避免過早抑制。 爲了檢測具有多邊形的曲線文本,CTD只需要通過添加曲線定位點來修改迴歸模塊,這受到DMPNet [21]和East [38]的啓發,採用四邊形迴歸分支與外接矩形迴歸分離。 矩形分支可以很容易地通過網絡學習並讓它快速轉換,這也可以粗略地檢測高級文本區域並減輕後續行爲迴歸。 相反,四邊形分支提供更強的監督,以指導網絡更準確。

與[25,21]類似,我們也迴歸每個點的相對位置。 與[21]不同,我們使用外接矩形的最小x和最小y作爲基準點。 因此,每個點的相對長度w i和h i(i∈1,2,…,14)大於零,這在實踐中更容易訓練。 此外,我們分別預測偏移w和h,這不僅可以減少參數,而且可以更加合理地進行順序學習,如以下小節所述。 迴歸項目總數爲32; 28是14點的偏移量,4是外接矩形的x,y最小值和最大值。 下面列出了14個偏移(d w i和d h i)的參數化:
這裏寫圖片描述
其中,p *和p分別是基礎事實和預測偏移。 此外,w chr和h chr是外接矩形的寬度和高度。 對於邊界迴歸,我們遵循與更快的R-CNN相同[25]。 值得注意的是,28個值足以確定14個點的位置,但在相對迴歸模式中,32個值可以更容易地檢索剩餘的14個點並提供更強的監督。
這裏寫圖片描述

由於篇幅原因,剩下推理部分這裏就不闡述了。

4、實驗結果

這裏寫圖片描述
這裏寫圖片描述
這裏寫圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章