摘要

大多數最先進的場景文本檢測算法是基於深度學習的方法，其依賴於邊界框迴歸並且執行至少兩種預測：文本/非文本分類和位置迴歸。迴歸在這些方法中獲取邊界框中起着關鍵作用，但它不是必不可少的，因爲文本/非文本預測也可以被視爲一種包含完整位置信息的語義分割。然而，場景圖像中的文本實例通常彼此非常接近，使得它們很難通過語義分割來分離。因此，需要實例分割來解決此問題。本文提出了一種基於實例分割的新型場景文本檢測算法PixelLink。首先通過將同一實例中的像素鏈接在一起來分割出文本實例。然後直接從分割結果中提取文本邊界框而不進行位置迴歸。實驗表明，與基於迴歸的方法相比，PixelLink可以在幾個基準測試中實現更好或相當的性能，同時需要更少的訓練迭代次數和更少的訓練數據。

PixelLink的架構
訓練CNN模型以執行兩種像素預測：文本/非文本預測和鏈接預測。在被閾值化之後，正像素通過正鏈接連接在一起，實現實例分割。然後應用minAreaRect直接從分割結果中提取邊界框。使用後置濾波可以有效地消除噪聲預測。顯示輸入樣本以便更好地說明。中的八個熱圖虛線框代表八個方向的鏈接預測。儘管在文本/非文本預測中難以分離某些單詞，但它們可通過鏈接預測分離，如下圖所示：

算法思路

1、將像素鏈接在一起
給定像素和鏈接的預測，可以分別對它們應用兩個不同的閾值。然後使用正鏈接將正像素分組在一起，產生CC的集合，每個CC表示檢測到的文本實例。因此實現了實例分割。值得注意的是，給定兩個相鄰的正像素，它們的鏈接由它們兩者預測，並且當兩個鏈接預測中的一個或兩個爲正時它們應該連接。可以使用不相交集數據結構來實現該鏈接過程。

2、提取邊界框
實際上，檢測任務在實例分割後完成。然而，需要邊界框作爲檢測結果，如IC13（Karatzas等人2013），IC15（Karatzas等人2015）和COCO-Text（Veit等人2016）。因此，然後通過OpenCV中的minAreaRect（2014年）等方法提取CC的邊界框.minAreaRect的輸出是一個定向矩形，可以很容易地轉換爲IC15的四邊形或IC13的矩形。值得一提的是，在PixelLink中，對場景文本的方向沒有限制。
該步驟導致PixelLink和基於迴歸的方法之間的關鍵差異，即，邊界框直接從除位置迴歸之外的實例分割獲得。

3、進行分割之後的過濾
由於PixelLink嘗試通過鏈接將像素組合在一起，因此不可避免地要進行一些噪聲預測，因此需要進行後置過濾步驟。一種簡單而有效的解決方案是通過檢測盒的簡單幾何特徵進行過濾，例如寬度，高度，面積和縱橫比等。例如，在第二部分的IC15實驗中。 5.3，如果檢測到的盒子的短邊小於10矩形框或者其面積小於300，則放棄檢測到的矩形框.10和300是IC15訓練數據的統計結果。具體地，對於選擇的過濾標準，選擇在TRAINING集合上計算的相應的第99百分位數作爲閾值。例如，再次選擇10作爲較短邊長度的閾值，因爲IC15列中約99％的文本實例具有短邊≥10像素。

優化

1、地面實況計算（其實就是怎麼計算鏈接像素）
在TextBlocks（Zhang等人，2016）中的公式之後，文本邊界框內的像素被標記爲正。如果存在重疊，則只有未重疊的像素爲正。否則爲負。對於給定像素及其八個鄰居中的一個，如果它們屬於同一個實例，則它們之間的鏈接爲正。
否則爲負。注意，對調整大小爲預測層形狀的輸入圖像執行地面實況計算，即，對於4s的conv3_3和對於2s的conv2_2。

2、損失函數
培訓損失是像素損失和鏈路損失的加權總和：
L =λL像素+ L鏈接。
由於L鏈接僅在正像素上計算，因此像素的分類任務比鏈接更重要，並且在所有實驗中λ都設置爲2.0。

實驗效果

在各數據集上表現很好，主要針對解決傾斜文本，對旋轉文本效果不好。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

自然場景文本處理論文整理（4）PixelLink

摘要

算法思路

優化

實驗效果

前端使用 Konva 實現可視化設計器（13）- 折線 - 最優路徑應用【思路篇】

tensorflow（四）實現邏輯迴歸模型

Python（三）容器（list、tuple、dict、set)

tensorflow（二）利用tensorflow實現線性迴歸

自然場景文本處理論文整理（5）Detecting Curve Text in the Wild: New Dataset and New Solution

RPN層解析

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

自然場景文本處理論文整理 （4）PixelLink

摘要

算法思路

優化

實驗效果

自然場景文本處理論文整理（4）PixelLink