CVPR 2021| 重新思考文本分割：新的數據集及一種針對文本特徵的改進分割方法

點擊上方“AI算法與圖像處理”，選擇加"星標"或“置頂”
重磅乾貨，第一時間送達

CVPR 2021 相關論文、代碼 、解讀和demo整理，同時爲了方便下載論文，已把部分論文上傳到上面了，歡迎小夥伴們 star 支持一波！
https://github.com/DWCTOD/CVPR2021-Papers-with-Code-Demo

本文簡要介紹CVPR 2021錄用論文“Rethinking Text Segmentation: A Novel Dataset and A Text-Specific Refinement Approach”的主要工作。本文貢獻了一個帶有比較全面的標註的大型文本分割數據集TextSeg，具有多種類型的標註：單詞級別和字符級別的文本框和mask，以及OCR標註。另外，本文介紹了一種文字分割方法TexRNet，針對文本進行網絡設計，包括關鍵特徵提取和基於注意力的相似特徵查找，可適應於文本的獨特屬性，例如非凸邊界、紋理多樣化等。本文還介紹了trimap損失函數和判別器損失函數，能夠顯著提高文本分割的性能。實驗證明，TexRNet與其他SOTA方法相比能夠提升2%左右。數據集和代碼將開源：https://github.com/SHI-Labs/Rethinking-TextSegmentation。

一、研究背景

文本分割是許多與文本相關的計算機視覺任務的基礎，並且在許多應用中發揮着重要作用。例如，文字風格遷移、場景文本擦除和交互式文本圖像編輯之類的智能應用都需要先使用有效的文本分割方法，才能準確地解析複雜場景中的文本。然而，現有公開的文字分割數據集缺乏大規模和精細的註釋，導致文字分割在當前研究上很大程度被忽略。因此，本文貢獻了一個新的文本分割數據集：TextSeg，它從更廣泛的來源中收集圖像，包括場景文本和設計文本，相比現有數據集具有更加豐富和全面的標註。另外本文針對文本的獨特屬性，提出了文字分割方法TexRNet，並在所提出的TextSeg數據集以及其他四個公開數據集上均達到了SOTA效果。

二、TextSeg 數據集介紹

本文貢獻的數據集TextSeg包含4024張圖像，分別是從海報，賀卡，封面，徽標，路標，廣告牌，數字設計，手寫等中收集的。如圖1所示，這些圖像可以大致分爲兩種文本類型：1）場景文本，例如道路標誌和廣告牌；2）設計文字，例如海報設計上的藝術文字。本文的數據集TextSeg主要是英文的（即大小寫的字母，數字和標點符號）。與現有數據集相比，TextSeg提供了更全面的標註。如圖2所示，TextSeg爲每個單詞和字符都標註了最小的四邊形框，像素級Mask以及OCR標註，還有諸如陰影，3D，光暈等文本效果Mask。

圖1 TextSeg數據集的部分樣本展示

圖2 TextSeg數據集的標註情況

表1和圖3列出了TextSeg和現有四個文字分割數據集ICDAR13 FST[1]，MLT_S[3]，COCO_TS[2]和Total-Text[4]之間的統計比較和可視化比較。其中，TextSeg具有更多不同的文本類型和更加全面完善的標註。

表1 TextSeg與其他文字分割數據集之間的統計比較

圖3 TextSeg與其他文字分割數據集之間的可視化比較

三、TexRNet原理簡述

語義分割中，樹木，天空這些常見類別，在不同場景之間一般是有相似紋理的。然而在文本分割中，不同單詞之間的文本紋理可能差異很大。爲了適應紋理多樣性，TexRNet根據低置信度區域與高置信度區域的全局相似性來動態激活低置信度區域，而不是使模型“記住”那些多樣化的紋理。文本分割的另一個挑戰是任意尺寸的文本，語義分割中普遍採用的卷積限制了模型的感受野，降低了模型對各種尺寸和寬高比的適應性。爲了使模型適應不同尺寸的文本，作者借鑑Non-local的思想，使用點積和Softmax在整個圖像上對相似紋理進行關注。

圖4 TexRNet的整體網絡結構

圖4是TexRNet的網絡結構，由兩部分組成：1) 主幹網，例如DeeplabV3+[5]或HRNet[6]，2) 關鍵特徵提取和Attention模塊。首先輸入一張圖片x，經過主幹網提取特徵xf，與傳統分割模型一樣，特徵xf通過帶偏置的1×1卷積映射到語義圖，再通過Softmax激活函數得到預測的分割圖，然後直接與GT計算交叉熵損失，如公式(1)所示。

由於文本沒有統一的紋理，在訓練過程中沒有可以學習的標準紋理，因此網絡需要在推理過程中確定該文本紋理。具體而言，如果低置信度區域與同一類別的高自信度區域共享相似的紋理，則應該修改低置信度區域。爲此，需要從高置信度區域提取每個類的關鍵特徵，用來作爲該類的全局視覺特徵。更具體地說，我們對上面預測的分割圖進行餘弦相似度計算，如公式(2)所示，並將其作爲新的偏置，對特徵xf進行帶有新的偏置的1x1卷積然後經過Softmax得到新的分割圖，目的是爲了降低Softmax之後每個類別的得分圖。降低每個類別的得分之後，那些依然保持高亮的區域，作者認爲這些區域足夠好，就對這些區域提取關鍵特徵vk，作爲每個類別的全局特徵。提取特徵是在得分圖和特徵圖xf之間的歸一化加權和，如公式(3)所示。

得到關鍵特徵之後，作者用Attention的結構，將關鍵特徵vk作爲Key，將特徵xf作爲Quary，高亮出與關鍵特徵vk相似的區域，得到一張Attention Map，再與原圖進行卷積操作，預測出最終的分割圖，同樣也是跟GT做交叉熵損失。經過這個操作，可以實現動態激活與高置信度區域具有全局相似性的低置信度區域。另外還有兩個損失函數，一個是判別器Loss，也就是一個預先訓練好的字符分類器，另一個是跟邊界有關的Loss，如公式(4)所示，作者認爲文字的邊界對分割的效果非常重要，因此這裏用文字邊界來做一個加權的交叉熵損失。最終的Loss是這幾項的加權和。

四、主要實驗結果及可視化效果

作者在四個公開的文字分割數據集和本文公開的數據集上與現有的SOTA方法：DeeplabV3+[5]和HRNet-W48[6]相比較。其中圖形判別器是在訓練集上預訓練好的ResNet50分類器。使用的評價指標是前景IoU（fgIoU）和前景F-score。如表2所示，在DeeplabV3+和HRNetV2-W48主幹網上，本文的方法在各個數據集上都優於現有的方法。另外作者對文中的Attention模塊，Trimap損失函數和字形判別器進行了消融實驗，如表3所示，加上Attention模塊和文中提出的兩個損失函數都能使模型的性能得到提升。

表2 TexRNet和其他方法在五個數據集上的性能比較

表3 Attention模塊和損失函數的消融實驗

本文公開的數據集還可以做一些下游任務的研究，比如場景文字擦除和文字風格遷移等。這裏作者將場景文字擦除看做是一個Inpainting問題，並使用Deep Image Prior[7]進行實驗。圖5比較了三種類型的文字Mask（即文字分割Mask，字符邊界框和單詞邊界框）的結果。顯然，文字分割Mask能實現更好的文字擦除，因爲它保留了更多的背景。另外文字風格遷移一般依賴於準確的文字Mask，在本實驗中，作者使用ShapeMatching GAN[8]在任意文本圖像上實現場景文字風格遷移。圖6中展示了一些結果，可以看到有文字Mask能做到視覺上更好的文字風格遷移。

圖5 不同類型文字Mask的文字擦除效果

圖6 文字風格遷移示例

五、總結及討論

本文公開了一個文字分割數據集TextSeg，該數據集由4024張場景文本和設計文本圖像組成，並帶有比較全面的標註，包括單詞級別和字符級別的文本框和mask，以及OCR標註。此外，本文提出一種有效的文字分割方法TexRNet，並在本文的數據集和其他四個文字分割數據集上證明所提出的模型的優越性。另外，本文的數據集還能進行多個下游任務的研究，包括場景文字擦除，文字風格遷移等。

六、相關資源

論文地址：https://arxiv.org/abs/2011.14021

項目地址：https://github.com/SHI-Labs/Rethinking-TextSegmentation

參考文獻

[1] Dimosthenis Karatzas, Faisal Shafait, Seiichi Uchida, Masakazu Iwamura, Lluis Gomez i Bigorda, Sergi Robles Mestre, Joan Mas, David Fernandez Mota, Jon Almazan Almazan, and Lluis Pere De Las Heras. Icdar 2013 robust reading competition. In 2013 12th International Conference on Document Analysis and Recognition, pages 1484–1493. IEEE, 2013.

[2] Simone Bonechi, Paolo Andreini, Monica Bianchini, and Franco Scarselli. Coco ts dataset: Pixel–level annotations based on weak supervision for scene text segmentation. In International Conference on Artificial Neural Networks, pages 238–250. Springer, 2019.

[3] Simone Bonechi, Monica Bianchini, Franco Scarselli, and Paolo Andreini. Weak supervision for generating pixel–level annotations in scene text segmentation. Pattern Recognition Letters, 138:1–7, 2020.

[4] Chee Kheng Ch’ng and Chee Seng Chan. Total-text: A comprehensive dataset for scene text detection and recognition. In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), volume 1, pages 935–942. IEEE, 2017.

[5] Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam. Encoder-decoder with atrous separable convolution for semantic image segmentation. In European Conference on Computer Vision, 2018.

[6] Jingdong Wang, Ke Sun, Tianheng Cheng, Borui Jiang, Chaorui Deng, Yang Zhao, Dong Liu, Yadong Mu, Mingkui Tan, Xinggang Wang, et al. Deep high-resolution representation learning for visual recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.

[7] Dmitry Ulyanov, Andrea Vedaldi, and Victor Lempitsky. Deep image prior. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 9446–9454, 2018.

[8] Shuai Yang, Zhangyang Wang, Zhaowen Wang, Ning Xu, Jiaying Liu, and Zongming Guo. Controllable artistic text style transfer via shape-matching gan. In Proceedings of the IEEE International Conference on Computer Vision, pages 4442–4451, 2019.

原文作者： Xingqian Xu, Zhifei Zhang, Zhaowen Wang, Brian Price, Zhonghao Wang, Humphrey Shi

撰稿：陳邦棟

編排：高學

審校：殷飛

發佈：金連文

免責聲明：（1）本文僅代表撰稿者觀點，撰稿者不一定是原文作者，其個人理解及總結不一定準確及全面，論文完整思想及論點應以原論文爲準。（2）本文觀點不代表本公衆號立場。

  
            
            
            
   
             
             
             個人微信（如果沒有備註不拉羣！）
  
            
            
            
  
            
            
            
   
             
             
             請註明：
   
             
             
             地區+學校/企業+研究方向+暱稱
  
            
            
            
  
            
            
            
   
             
             
             

  
            
            
            


下載1：何愷明頂會分享

在「AI算法與圖像處理」公衆號後臺回覆：何愷明，即可下載。總共有6份PDF，涉及 ResNet、Mask RCNN等經典工作的總結分析

下載2：終身受益的編程指南：Google編程風格指南

在「AI算法與圖像處理」公衆號後臺回覆：c++，即可下載。歷經十年考驗，最權威的編程規範！


          
          
          
 
           
           
           下載3 CVPR2021

          
          
          

          
          
          
 
           
           
           


          
          
          

          
          
          
 
           
           
           在「AI算法與圖像處理」公衆號後臺回覆：
 
           
           
           CVPR
 
           
           
           ，即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

點亮，告訴大家你也在看

本文分享自微信公衆號 - AI算法與圖像處理（AI_study）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

CVPR 2021| 重新思考文本分割：新的數據集及一種針對文本特徵的改進分割方法

爲什麼要⽤ Foundry

【筆記】動手學深度學習-預備知識

py發送email

MySQL 分庫分表方案，總結太全了。。

Qt/C++音視頻開發71-指定mjpeg/h264格式採集本地攝像頭/存儲文件到mp4/設備推流/採集推流

WPF開源輕便、快速的桌面啓動器

公司來了個新同事，把 DDD 運用得爐火純青！

別魔改網絡了，Google研究員：模型精度不高，是因爲你的Resize方法不夠好！

深度學習中圖像分割經典算法和必備知識點整理

算！力！羊！毛！5000核時計算資源終於開放使用了！

部署教程 | ResNet原理+PyTorch復現+ONNX+TensorRT int8量化部署

YOLOS：通過目標檢測重新思考Transformer（附源代碼）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結