0 概要
自然場景文本檢測有兩個挑戰:
- (1)四邊形去定位任意形狀;
- (2)文本接近時導致誤檢測。
基於分割的方法可以解決(1)但是不能解決(2)。
因此PSENET提出來解決做生意形狀的文本檢測。
psenet爲每個文本生成不同尺度的核,逐漸擴展最小尺度核到完整尺寸的文本實例。
由於小尺寸核之間有大的幾何間隔,psenet能使基於分割的方法有效分割鄰近的文本。
1 介紹
文本檢測可粗分爲兩種:(1)基於迴歸的方法;(2)基於分割的方法。
- 基於迴歸(regression-based)的方法不好處理任意形狀的文本實例。
- 基於分割(segmentation-based)的方法很難處理靠近的文本。
論文裏提出一種新奇的kernel-based框架——PSENet。
- 類似基於分割的方法,PSENet執行一個像素級分割,它能夠精確的定位任意形狀的文本實例。
- 我們提出一種先進的尺度擴張算法,來分辨鄰近的文本實例。
- 給每個文本實例分配多個預測分割區域,用核kernel來表示。
- 爲了獲取最終的檢測,我們採用一種基於BFS的先進尺度擴張算法。具體說有三步:
- 從最小尺度開始
- 在更大的核上使用更多像素擴張區域
- 直到最大的核結束。
有三個潛在的原因來設計先進尺度擴張算法:
- 小尺度核容易分割,因爲它們之間相互距離遠。
- 小尺度核不會覆蓋全部文本區域。
- 先進尺度擴張算法簡單有效的擴張小核到完整文本區域。
2 相關工作
2.1 Regression-based 方法
- 普通的物體檢測:Faster R-CNN,SSD。
- TextBoxes 修改了anchor的尺寸和形狀來適應文本。
- EAST使用FCN來直接輸出score map,rotation angle 和文本框。
- RRPN 採用Faster R-CNN,旋轉的候選區域來檢測任意朝向文本。
- RRD 提取特徵圖來做文本分類和迴歸,來改善長文本檢測。
缺點:
- 設計複雜的anchor,笨重的多階段,它需要詳細的調節和局部優化。
- 不能處理彎曲文本。
2.2 Segmentation-based 方法
- Zhang 採用FCN來提取文本塊,用MSER來檢測候選區域。
- Yao 利用FCN來預測對應的熱力圖。
- Lyu 利用角點定位不規則四邊形。
- PixelLink 通過不同文本實例的像素級連接關係來分割文本。
- TextSnake
- SPCNET使用實例分割框架和使用上下文信息來檢測做任意形狀文本,同時抑制false positives。
缺點:
- 沒有充分考慮彎曲文本。
- TextSanke 需要耗時的複雜的後處理操作。PSENET只需要簡單有效的步驟。
3 提出的方法
3.1 整體流程
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-r6SQeIfO-1584411467057)(fig3.jpg)]
- 使用ResNet作爲PSENet的基礎網絡。
- 把低層紋理特徵和高層語義特層連接到一起。
這些特徵圖融合在F中。
這種融合類似於利用不同尺寸kernel的產生。 - F 投影n 個分支,產生多個分割結果,S1,S2,Sn。每個Si代表特定尺寸所有文本實例分割的掩膜。S1給了最小尺寸的分割結果。Sn給了原圖的分割結果。
- 獲取到這些分割掩膜後,用尺度擴張算法從S1到Sn,得到最終結果R。
3.2 網絡設計
- 基礎的框架是FPN實現,我們首先獲得四個256通道的特徵圖(P2,P3,P4,P5)。
- 爲了更好結合從低到高層的語義特徵,混合四個特徵圖得到 F,F有1024通道。
- F 餵給Conv(3,3)-BN-ReLU產生256通道。
- 產生n個分割結果,S1,S2,Sn。
3.3 尺寸擴張算法
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-jfu4Wkj5-1584411467063)(fig4.png)]
假如有三個分割結果,S1,S2,S3。
處理衝突的像素,先到先得。
3.4 標籤生成
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-MagWLRmQ-1584411467065)(fig5.png)]
不同尺度核由原始文本實例收縮生成。
- 藍線代表原始文本實例,對應最大的分割掩膜。
- 使用Vatti clipping算法原始多邊形。