psenet論文筆記【未完待續】

原創

2020-06-16 06:39

0 概要

自然場景文本檢測有兩個挑戰：

（1）四邊形去定位任意形狀；
（2）文本接近時導致誤檢測。

基於分割的方法可以解決（1）但是不能解決（2）。
因此PSENET提出來解決做生意形狀的文本檢測。
psenet爲每個文本生成不同尺度的核，逐漸擴展最小尺度核到完整尺寸的文本實例。
由於小尺寸核之間有大的幾何間隔，psenet能使基於分割的方法有效分割鄰近的文本。

1 介紹

文本檢測可粗分爲兩種：（1）基於迴歸的方法；（2）基於分割的方法。

基於迴歸（regression-based）的方法不好處理任意形狀的文本實例。
基於分割（segmentation-based）的方法很難處理靠近的文本。

論文裏提出一種新奇的kernel-based框架——PSENet。

類似基於分割的方法，PSENet執行一個像素級分割，它能夠精確的定位任意形狀的文本實例。
我們提出一種先進的尺度擴張算法，來分辨鄰近的文本實例。
給每個文本實例分配多個預測分割區域，用核kernel來表示。
爲了獲取最終的檢測，我們採用一種基於BFS的先進尺度擴張算法。具體說有三步：
1. 從最小尺度開始
2. 在更大的核上使用更多像素擴張區域
3. 直到最大的核結束。

有三個潛在的原因來設計先進尺度擴張算法：

小尺度核容易分割，因爲它們之間相互距離遠。
小尺度核不會覆蓋全部文本區域。
先進尺度擴張算法簡單有效的擴張小核到完整文本區域。

2 相關工作

2.1 Regression-based 方法

普通的物體檢測：Faster R-CNN，SSD。
TextBoxes 修改了anchor的尺寸和形狀來適應文本。
EAST使用FCN來直接輸出score map，rotation angle 和文本框。
RRPN 採用Faster R-CNN，旋轉的候選區域來檢測任意朝向文本。
RRD 提取特徵圖來做文本分類和迴歸，來改善長文本檢測。

缺點：

設計複雜的anchor，笨重的多階段，它需要詳細的調節和局部優化。
不能處理彎曲文本。

2.2 Segmentation-based 方法

Zhang 採用FCN來提取文本塊，用MSER來檢測候選區域。
Yao 利用FCN來預測對應的熱力圖。
Lyu 利用角點定位不規則四邊形。
PixelLink 通過不同文本實例的像素級連接關係來分割文本。
TextSnake
SPCNET使用實例分割框架和使用上下文信息來檢測做任意形狀文本，同時抑制false positives。

缺點：

沒有充分考慮彎曲文本。
TextSanke 需要耗時的複雜的後處理操作。PSENET只需要簡單有效的步驟。

3 提出的方法

3.1 整體流程

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-r6SQeIfO-1584411467057)(fig3.jpg)]

使用ResNet作爲PSENet的基礎網絡。
把低層紋理特徵和高層語義特層連接到一起。
這些特徵圖融合在F中。
這種融合類似於利用不同尺寸kernel的產生。
F 投影n 個分支，產生多個分割結果，S1,S2,Sn。每個Si代表特定尺寸所有文本實例分割的掩膜。S1給了最小尺寸的分割結果。Sn給了原圖的分割結果。
獲取到這些分割掩膜後，用尺度擴張算法從S1到Sn，得到最終結果R。

3.2 網絡設計

基礎的框架是FPN實現，我們首先獲得四個256通道的特徵圖（P2,P3,P4,P5）。
爲了更好結合從低到高層的語義特徵，混合四個特徵圖得到 F，F有1024通道。
$F = C(P2, P3, P4, P5) = P2 || UP(2) * P3 || UP(4) * P4 || UP(8) * P5$
F 餵給Conv(3,3)-BN-ReLU產生256通道。
產生n個分割結果，S1,S2,Sn。

3.3 尺寸擴張算法

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-jfu4Wkj5-1584411467063)(fig4.png)]

假如有三個分割結果，S1,S2,S3。

處理衝突的像素，先到先得。

3.4 標籤生成

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-MagWLRmQ-1584411467065)(fig5.png)]

不同尺度核由原始文本實例收縮生成。

藍線代表原始文本實例，對應最大的分割掩膜。
使用Vatti clipping算法原始多邊形。

3.5 損失函數

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

psenet論文筆記【未完待續】

0 概要

1 介紹

2 相關工作

2.1 Regression-based 方法

2.2 Segmentation-based 方法

3 提出的方法

3.1 整體流程

3.2 網絡設計

3.3 尺寸擴張算法

3.4 標籤生成

3.5 損失函數

linux安裝cuda和cudnn

測試人員都是畫畫大神，讓我看看誰還不會用代碼圖？

Object.values()對象遍歷

Mellanox網卡開啓SR-IOV

我拍了拍Redis，被移出了羣聊···

網絡現代化通向雲原生應用的高速公路

面試官：說說你對序列化的理解

我宣佈，這是我找到的史上AI最全論文體系！

PaddleOCR改進識別推理效果對比

PIL使用問題02_圖像顛倒

董仲蠡四級翻譯導學

查看Mac電腦硬盤使用時間

劉琦四級閱讀導學

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結