ICDAR2019發票比賽冠軍論文解讀(文字檢測Corner)

1. 文章背景:ICDAR2019任務3: 發票比賽端到端識別比賽冠軍,技術方案Corner+CRNN,其中的Corner方法就是本文方法,開源代碼:https://github.com/lvpengyuan/corner

2. 題目:Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation(基於邊角的多方向場景文本檢測和區域分割),文章鏈接:https://arxiv.org/abs/1802.08948,該文章被【CVPR2018】收錄。

3. 作者相關:該文章由華中科技大學白翔教授團隊出品

4. 方法簡介:作者提出了一種可端到端訓練和評估的文本檢測網絡,結合了目標檢測和語義分割兩種思路。其中,主幹網絡使用了VGG16,主要用於進行特徵提取;然後網絡外接兩個並行分支,第一個分支用來進行邊角點檢測來提取文本區域;第二個分支用類似RFCN的網格劃分的思路做位置敏感分割。最後,使用NMS算法對候選文本區域進行過濾。

5. 方法細節

    5.1 主要創新

    1)提出了結合目標檢測和語義分割思想的新的場景文本檢測算法,可實現端到端的訓練評估;

    2)基於位置敏感ROI pooling提出了旋轉位置敏ROI pooling層實現任意方向傳播;

    3)可以同時處理多方向旋轉文本、高長寬比文本、近距離文本區域等場景;

    4)檢測準確性和速度性能相比較其他方法更優。

    5.2 整體流程

    如fig2所示,完整的端到端過程包含以下幾個步驟。

     首先經過backbone網絡進行特徵提取,然後,將提取好的特徵並行輸入到兩個分支中共享特徵。其中,第一個分支爲Corner Detection,用來進行候選bounding box的生成,這部分類似於傳統的目標檢測算法;第二個分支爲Position ensitive Segmentation,用於將特徵圖逐像素打分,和一般分割不同的是輸出4個score map,分別對應左上、左下、右上、右下不同位置的得分;最後,通過Corner Detection 和 Position sensitive Segmentation共同計算得分,去掉低於置信度閾值的候選框,經過NMS後處理即得到最終的文本區域。

    5.2 網絡架構:主要包括三個部分,如fig3所示

    1)Feature Extraction:模型的backbone網絡,使用了預訓練的VGG16,將VGG16的最後兩個全連接層換成卷積層,同時添加4個卷積層以增大感受野,再追加堆疊6個帶殘差的反捲積層提升分辨率;

    2)Corner Detection:用來生成候選檢測框,是一個獨立的檢測模塊,類似於RPN的功能。這裏面Fi爲反捲積得到的特徵圖,經過DSSD框架後得到,score branch得到2種score,offset branch四種偏移量。最後,使用DSSD中過濾的方法得到候選bounding box;

    3)Position sensitive Segmentation:位置敏感分割,用於對Coner Detection得出的候選bounding box打分使用。這部分將文本區域劃分爲g*g個網格(bin),使用上採樣過後的反捲積層F3、F4、F7、f8、F9合併的結果作爲特徵圖,輸出g*g個通道的特徵圖。

    5.3 損失函數:包含3個部分

 

1) Lconf是Corner Detection中分數分支的損失函數,用來衡量置信度的損失,這裏使用了交叉熵損失;

2) Lloc是Corner Detection中偏移量分支的損失函數,用來衡量模塊中定位邊角點的損失,這裏使用了Smooth L1損失;

3) Lseg是計算位置敏感分割中的損失函數,這裏使用了Dice巡視;

4) Nc是正樣本默認box的數量,Ns是分割圖中像素的數量。NcNs用來歸一化邊角點預測和分割的損失。λ1和λ2是平衡因子,λ1的默認值是1,λ2的默認值是10。

 

譯文:

基於邊角的多方向場景文本檢測和區域分割

25 Feb 2018)白翔團隊

Abstract

    此前,效果較好的基於深度學習的場景文本檢測方法可以大致分爲兩類。第一類是將場景文本看作通用目標,進而使用通用目標檢測算法來定位場景文本區域,通常的方式是使用迴歸的文本框。但是由於場景文本的多方向性和較大的寬高比,這種方法通常比較困難。第二種方法是直接分割文本區域,但大多數情況下需要複雜的後處理過程。在這篇文章中,我們提出了一種結合以上兩種思路以避免各自缺陷的方法,通過定位邊角點的文本框並在相關位置分割文本區域的場景文本檢測算法。在模型的前向傳播階段,通過採樣和分組邊角點生成候選框,用於進行特徵分割和NMS過濾。結合了之前的方法以後,我們所提方法能夠處理多方向自然場景中的文本並且不必進行復雜的後處理過程。我們在ICDAR2013,ICDAR2015, MSRA-TD500, MLT和COCO-Text等數據集上都進行了實驗,實驗結果證實了我們所提出方法較好效果。其中,基於VGG16網絡的模型,在ICDAR2015上達到了84.3%的F值,在MSRA-TD500上取得了81.5%的F值。

1. Introduction

    最近,由於在現實中日益增長的自然場景文本識別需求(商品搜索、圖像修復、自動駕駛),有關從自然場景中提取文本信息的研究變得越來越熱門。自然場景文本檢測在多種文本閱讀體系中佔據着重要的角色。

    長文本檢測是一種挑戰,其原因有二。外部原因是由於環境的問題,如噪音,模糊,光線遮擋等,這些也是自然場景目標檢測的難題;內部原因是由場景文本的特點和多樣性造成的。與通用目標檢測對比,場景文本檢測更加複雜:

    1)場景文本可能在自然圖片中具有多種方向,因此文本框可能是旋轉矩形或者四邊形;

    2)寬高比巨大;

    3)場景文本可能是字符、單詞或文本行,算法可能在定位邊界時會很困難。

    過去幾年,隨着目標檢測和語義分割研究的高速發展,場景文本檢測已經被廣泛研究並取得了明顯的進步。一些基於通用場景目標檢測和語義分割,修改爲使用文本檢測的模型更加精準。這些模型可以被歸類劃分到兩個分支:第一個分支是基於通用目標檢測(SSD, YOLO, DenseBox)算法的模型,例如,TextBoxes, FCRN和EAST等,這些算法直接預測候選文本框。第二個分支是基於語義分割,能夠生成語義分割圖,並通過後處理產生最終的文本框。

    與先前方法不同的是,我們在這篇文章中結合了目標檢測和語義分割的思想,並在一種可選的方式下應用它們。這麼做的目的是源於兩種觀察:

    1)不管矩形的尺寸是什麼,長寬比或者矩形的角度是什麼,它都可以被邊角點唯一確定;

    2)區域語義特徵能夠提供有效的文本位置信息。

    因此我們首先檢測文本區域的邊角點(上左,上右,下右,下左,類似fig1中展示的)而不是直接檢測文本框。除此之外,我們預測位置語義分割map而不是直接預測文本/非文本區域。最後,我們通過採樣和組合檢測邊角點生成候選生成候選的bounding box,並通過語義信息估計不可能的bounding box。我們將整條pipeline描述在fig2中。

    下面,列出本文的主要優勢:

1)因爲我們通過採樣和組合邊角點來檢測區域文本,我們的方法能夠處理任意方向的文本;

2)檢測邊角點而不是bounding box讓我們的方法自然而然的避免了長寬比劇烈變化的問題;

3)位置語義分割的使用讓我們可以較好的分割出文本實例,無論是字符級別、單詞級別或文本行級別;

4)在我們的方法中,候選框的邊界決定於邊角點,與從anchor或文本區域中迴歸文本框相比,我們產生的文本框更加準確,特別是對長文本來說。

    我們在水平文本、長文本和多角度和多語言的公開數據集上都驗證了本文方法的有效性(公開評測指標)。結果展示出了我們所提出的方法在準確率和速度上的優勢。特別的是,在ICDAR-2015,MSRA-TD500和MLT上的F值各自爲84.3%,81.5%和72.4%,這些都超出了先前的最優結果。而且,我們的方法在速度性能上一樣具有競爭力,檢測速度超過10.4張圖片(512*512)/s。

    本文的貢獻有四點:

    1)我們提出了一種包含目標檢測和語義分割功能的新的場景文本檢測器,可以實現端到端訓練和評估。

    2)基於位置敏感的ROI pooling,我們提出了一種旋轉的位置敏感ROI average pooling層,能夠處理任意方向的傳播。

    3)我們的方法可以應用處理先前方法效果不好的多方向場景文本。

    4)我們的方法在準確率和性能上都表現的更好。

2. Related Work

2.1 Regression Based Text Detection

    基於文本檢測的迴歸已經成爲了過去兩年文本檢測的主流算法。一些基於通用目標檢測已經達到了較好的效果。基於SSD算法的TextBoxes[27]使用了“long”默認框和“long”的卷積核來處理大長寬比的問題。類似的,[32]利用Faster-RCNN的框架,並在RPN中添加了旋轉anchors來檢測多方向文本。SegLink[39]算法預測文本語義,並使用SSD風格的網絡連接語義像素成爲文本框,以此處理長的多方向文本。基於DenseBox,EAST直接回歸文本框。

    我們的方法也從通用目標檢測算法DSSD[11]中獲得靈感。但不同於以上所列方法那樣迴歸文本框或直接回歸語義,我們提出了使用邊角點來定位位置,同時通過採樣和組合檢測邊角點來生成文本框。

2.2 Segmentation Based Text Detection

    基於文本檢測的分割是另一種文本檢測的研究方向。受FCN[31]的啓發,一些方法傾向於使用分割map檢測場景文本。[52]首先利用FCN從分割map中提取文本塊,然後使用MSER[34]在這些文本塊中檢測字符,並通過前置規則將檢測出的字符組合成爲單詞或文本行。在[50]中使用了FCN來預測圖片中的三種類型的map(文本區域,字符和連接方向)。然後使用一些後處理規則來處理這三種map以獲得文本bounding box。

    不同於先前的基於文本檢測方法的分割(需要複雜的後處理規則),我們的方法簡潔高效。在前向傳播階段,我們提出的旋轉位置敏感average ROI pooling層能夠通過位置敏感分割map來預測候選框的得分。

2.3 Corner Point Based General Object Detection

    基於通用目標檢測的邊角點是一種新的通用目標檢測趨勢。在DeNet[45]中,作者提出了一種邊角點層和一個稀疏採樣層來代替基於Faster-RCNN系的二階模型中的RPN網絡。在[48]中,作者提出了PLN(點連接網絡)來回歸邊角點/中心點的bounding box並使用全卷積網絡來建立這些點之間的連接,然後,使用這些點座標和連接關係來生成目標的bounding box。

    我們的方法受到基於邊角點的目標檢測算法的啓發,卻又十分不同。第一,邊角點檢測器不同;第二,我們使用分割map來計算候選框的得分;第三,算法可以產生多方向的目標框。

2.4 Position-Sensitive Segmentation

    最近,許多基於特徵敏感map的語義分割方法被提出來了。在[8]中作者利用了相對位置來分割和前向傳播InstanceFCN。在FCIS[26]中,作者藉助了位置敏感內/外分數圖,提出了實例敏感的端到端語義分割網絡。

    我們也參考了位置敏感分割map來預測文本區域。與以上提及的方法相比較,主要有三點不同:

    1)我們直接使用位置敏感真實樣本優化網絡(4.1.1詳細描述);

    2)不同於FCIS算法使用的兩種類型的位置敏感map,我們的位置敏感map可以同時用於預測文本區域和分數特徵(4.2.2);

    3)我們提出的旋轉位置敏感ROI average pooling能夠處理多方向的情況

3. Network

    我們方法中的網絡是一種全卷積網絡,起到特徵提取,邊角點檢測和位置敏感語義分割的作用。網絡的結構展示在fig3中。給定一張圖片,網絡產生候選邊角點和分割map。

3.1 Feature Extraction

    我們的模型主幹網絡使用預訓練的VGG16,同時對以下問題進行考慮:

    1)場景文本的尺寸變化劇烈,主幹網絡必須有足夠強的能力來處理好這個問題;

    2)自然場景中的背景複雜,因此特徵必須包含足夠多的信息。參考FPN和DSSD算法對這些問題的良好解決,我們在FPN/DSSD架構中擴展特徵。

    在網絡細節上,我們將VGG16中的fc6和fc7層換成conv6和conv7層。同時又在conv7後面疊加了一些額外的卷積層(conv8-conv11),來擴大感受野,增強特徵提取的能力。然後,我們在從上到下的路徑上使用了DSSD[13]中提出的一系列的反捲積模塊,如fig3所示。特別的,爲了使用不同尺寸的文本區域,我們從conv11到conv3總共串聯了6個反捲積模塊,包含256個通道。爲了方便表示,我們將卷積層對應的特徵表示爲Fi,例如conv11的特徵表示爲F11。最後,通過conv11和反捲積模塊來擴展特徵,這樣一來,我們就有了豐富的特徵表示,可以更好的進行邊角點檢測和位置語義map預測了。

3.2 Corner Detection

    對於一個給定的旋轉矩形bounding box R=(x, y, w, h, xita) ,它有4個邊角點,可以表示爲一組順時針的二維座標{(x1, y1), (x2, y2), (x3, y3), (x4, y4)}。爲了方便表示,我們使用一個水平正方形C=(xc, yc, ss, ss)重定義和表示了邊角點,其中xc, yc 是邊角點(例如左上邊角點),也是水平正方形的中心。ss是旋轉矩形bounding box R的短邊長度。

    參考了SSD和DSSD,我們使用預先設定的boxes檢測邊角點。不同於DSSD或SSD中每個默認box輸出分類分數和相對候選box偏移量的方式,邊角點檢測更加複雜,因爲可能在一個相同位置出現不止一個邊角點(例如在一個位置可能同時有下左和上右邊角點box)。因此在我們的例子中,默認的box應該輸出分類分數和對應於4類邊角點的4個候選框偏移量。

    我們使用了[11]中提出的預測模塊在一次卷積過程的兩個分支分別預測分數和偏移量。爲了減少計算複雜度,所有卷積核的大小設置爲256。對於一個大小爲m*n的特徵圖,在每個單元中有k個box。對每個box,分數分支和偏移量分支輸出2個分數和4個偏移量。這裏分數分支中“2”代表該位置是否爲邊角點。總的來說,輸出通道的分數分支和偏移量分支大小爲 k*q*2和k*q*4,其中q代表邊角點的類型,默認是4。

    在訓練階段,我們遵從SSD中默認box和真實box的匹配策略。爲了適應不同尺寸下的場景文本,我們在多種特徵圖下使用多種尺寸的默認box。所有默認box的尺寸被列在tab1中。默認的高寬比設置爲1。

3.3 Position-Sensitive Segmentation

    在先前基於文本檢測的分割方法[52, 50]中,分割圖被用於表示每個像素屬於文本區域的概率值。然而那些文本區域在分數圖中總是不能夠彼此分開,結果就是導致文本區域的重疊和文本像素的錯誤預測。爲了從分割圖中得到文本的bounding box,[50, 52]進行了複雜的後處理。

    與先前的文本分割方法使用相關聯位置作爲文本區域相比,我們受到InstanceFCN[8]的啓發,使用位置敏感分割來創建文本分割圖。更詳細的說,對於一個文本bounding box R,一個g*g的規則網格用於分割該文本boungding box成爲多個單元(例如,對於一個2*2的網格,一個文本區域能夠被分割爲4個單元,分別是上左,上右,下右,下左)。對於每個單元,分割圖都被用於表示該像素是否屬於該單元。

    我們在帶有邊角點檢測的同一網絡中創建了位置敏感分割器。重用了特徵F3,F4,F7,F8,F9並追加邊角點檢測分支中的殘差塊架構來建立一些卷積塊(見fig3)。這些模塊的所有輸出都通過雙線性上採樣放縮到F3的尺寸範圍,上採樣的比例分別爲1,2,4,8,16。然後,所有具有相同尺寸的輸出都被添加到一起concate成爲更加豐富的特徵。爲了進一步爲了擴大融合特徵的分辨率,我們使用兩個連續的1*1conv-BN-Relu-Deconv2*2模塊,並設置最後的反捲積層的卷積核爲g*g。因此,最後的特徵敏感分割圖具有g*g的通道數,並具有與輸入圖片相同的尺寸。在本文中,我們設置g默認爲2。

4. Training and Inference

4.1 Training

4.1.1 Label Generation

    對於一個輸入訓練樣本,我們首先將真實樣本的每個文本框轉化爲覆蓋最小文本框區域的矩形;然後,設置相對位置和4個邊角點。

我們通過以下規則來設置一個旋轉矩形的相對位置:

    1)上左,下左邊角點的x座標必須小於上右,下右邊角點的x座標;

    2)上左和上右邊角點的y座標必須小於下左,下右邊角點的y座標。這樣一來,原始的真實樣本可以被表示爲一個具有邊角點相對位置的旋轉矩形。爲了方便,我們記爲旋轉矩形R={Pi|i屬於{1,2,3,4}},其中Pi=(xi, yi)是旋轉矩形在上左,上右,下右和下左邊角點;

    我們使用R生成邊角點檢測和位置敏感分割的label。對於邊角點檢測,我們首先計算R的短邊和代表4個邊角點的水平正方形,如fig5(a)中所示。對於位置敏感分割,我們使用R生產出文本/非文本的pixel-wise標記。我們首先使用與輸入圖片相同的尺寸並設置所有的像素值爲0來初始化4個標記。然後我們將R分成2*2的規則網格單元,就這樣形成了4個單元,並將每個單元分給一個標記,例如上左單元分給第一個標記。然後,我們設置這些單元中的所有像素的值爲1,如fig5(b)所示。

4.1.2 Optimization

    我們同時訓練邊角點檢測和位置敏感分割。損失函數定義如下:

    其中,Lconf是分數分支的損失函數,用來預測置信度;Lloc是偏移量分支的損失函數,用來在模塊中定位邊角點。Lseg是位置敏感的損失函數。Nc是正樣本默認box的數量,Ns是分割圖中像素的數量。Nc和Ns用來歸一化邊角點預測和分割的損失。λ1和λ2是平衡因子,默認λ1是1,λ2是10。

    我們使用SSD中的匹配策略來訓練分數分支,使用交叉熵損失:

  這裏yc代表真實樣本的所有默認box,正樣本爲1否則爲0。pc代表預測分數。考慮到正負樣本的極度不平衡問題,類均化很有必要。我們使用[40]提出的在線負樣本挖掘來平衡訓練樣本,並設置正負樣本比例爲1:3。

    對於偏移量分支,我們像Fast RCNN一樣迴歸默認box的相對偏移量,並使用Smooth L1損失優化它們:

    其中,yl=(detx, dety, detss, detss)是真實偏移量分支的真實樣本,pl是預測樣本。yl能夠通過默認box B=(xb, yb, ssb, ssb)和一個邊角點 box C=(xc, yc, ssc, ssc)計算得出:

    我們使用最優化Dice損失[33]來訓練位置敏感分割:

    其中ys是位置敏感分割的真實值l,ps是我們的分割模塊的預測。

4.2 Inference

4.2.1 Sampling and Grouping

    在前向傳播階段,很多帶有預測位置、短邊長度和置信度的的邊角點被產生出來。具有高分數(默認超過0.5爲高分數)的點被保留。在經過NMS之後,包含4個邊角點的集合可以通過相對位置信息組合而得到。

    我們通過採樣和組合預測邊角點來生產候選bounding box。在理論上,一個旋轉矩形能夠被兩個點和一個與其垂直的邊構建出來。對於一個預測點,短邊已知,因此我們可以通過採樣和組合一個邊角點集合中的兩個來直接構建一個旋轉矩形,例如(上左,上右),(上右,下右),(下左,下右),(下左,上左)。

    我們使用一些前置規則來過濾掉不合適的邊角點對:

    1)不能違背位置關係,例如上左的x必須小於上右的的x座標位置;

    2)已構建的旋轉矩形的最短邊必須高於閾值(默認爲5);

    3)成對的兩點預測出的短邊ss1和ss2必須滿足:

 

4.2.2 Scoring

    在採樣和組合邊角點以後,會生成大量的候選bounding box。收到InstanceFCN和RFCN的啓發,我們通過位置敏感分割圖給候選bounding box賦予分數。具體的過程展示在fig5中。

    爲了處理旋轉文本bounding box,我們改進了[9]中提出的位置敏感ROI pooling層成爲旋轉位置敏感ROI Average pooling層。特別的,對於一個旋轉的box,我們首先將該box分割爲g*g個單元,然後我們對每個單元建立一個最小覆蓋矩形。對該單元中的所有像素重複該步驟,並計算所有像素的最小覆蓋矩形的均值。最後,旋轉bounding box的分數就是g*g單元中的分數均值。具體過程可見算法1:

    低分數的候選box會被過濾掉,我們將閾值τ默認設置爲0.6。

5. Experiments

    爲了驗證本文方法的有效性,我們在5個開源數據集上進行實驗:ICDAR21015、ICDAR2013、MSRA-TD500、MLT、COCO-Text,並與其他的業界領先算法進行比較。

5.1 Datasets

5.2 Implementation Details

訓練:我們的模型是在SynthText上預訓練,然後在其他數據集上finetuning(除了COCO-Text)。我們使用Adam作爲優化器,學習率調整到1e-4。在預訓練階段,我們在SynthText上訓練一個epoch。在finetuning階段,迭代的次數取決於數據集的尺寸。

數據增強:我們使用與SSD算法中相同的數據增強方式。在輸入圖片中隨機採樣一小塊,然後重放縮到512*512。

後處理:NMS是本算法的一個唯一的後處理步驟,設置閾值爲0.3。

    我們的方法使用PyTorch實現,所有的實驗構建在工作站上(CPU: Intel(R) Xeon(R) CPU E5-2650 v3 @ 2.30GHz; GPU:Titan Pascal; RAM: 64GB)。訓練的batch大小設置爲24,GPU數量爲4。評測時GPU爲1個,batch大小設置爲1。

5.3. Detecting Oriented Text

    我們在ICDAR2015數據集上評估模型對於多方向文本的能力。我們將模型在ICDAR2015和ICDAR2013數據集上finetune另外500個epoch。值得強調的是,爲了更好的檢測垂直方向的文本,在最後的15個epoch,我們使用0.2的概率隨機旋轉了採樣樣本90度。在測試中,我們設置τ爲0.7並且resize輸入圖片到768/*1280。參考了[53,17,16],我們也在ICDAR2015數據集上使用多尺度評估我們的模型,默認τ{512×512, 768×768, 768×1280, 1280×1280} 。

    我們將本文方法與業界領先方法對比的結果列在了tab2中。本文方法性能高於其他方法很多。當使用單一尺度評測時,我們方法的F值達到了80.7%,遠超其他方法;在使用多尺度評測時,F值爲84.3%,超過目前最優算法3.3%。

    爲了探索本文基於邊角點的方法和基於迴歸文本框的方法的差距,我們訓練了一個與本文方法參數設置相同的網絡命名爲baseline,列在tab2中。baseline網絡包含與本文方法相同的主幹網絡和類似SSD/DSSD的相同預測模塊。在略微多的時間消耗下,本文方法取得了巨大的準確率提升(53.3% VS 80.7%)。

5.4. Detecting Horizontal Text

    我們在ICDAR2013數據集上評估模型對於水平文本的能力。我們在fintuned的ICDAR2015模型的基礎上使用ICDAR2013的數據集訓練了60個epoch。在測試中,輸入圖片放縮到512*512。我們也使用了多尺寸輸入來評估我們的模型。

    結果被列在了tab3中,大多數使用了"Deteval"評估指標。我們的方法達到了一個非常有競爭力的結果。當使用單尺度進行評測時,我們的方法達到了85.8%的F值,僅僅比最優結果低一點。而且,我們的方法速度達到10.4FPS,遠遠快於大多數方法。對於多尺度評測,我們的方法達到88.0%的F值,相比較其他方法也十分具有競爭能力。

5.5 Detecting Long Oriented Tect Line

    在MSRA-TD500數據集上,我們評估模型的檢測長文本和多語言文本行的能力。HUST-TR400也被用做訓練數據,因爲MSRA-TD500僅僅包含300個訓練圖片。模型初始化使用在SynthText上的預訓練模型,然後finetuned了另外240個epoch。在測試階段,輸入圖片尺寸設置爲768*768並且設置τ爲0.65。

    正如在tab4中展示的那樣,我們的方法超過先前所有方法很多。我們的方法在召回率、精度和F值等方面均達到了業界領先水準,遠超先前結果。這意味着我們的方法更加適合檢測任意方向的長文本。

5.6 Detecting Multi-Lingual Text

    我們在MLT數據集上驗證本文模型的多語言文本檢測的能力。使用SynthText的預訓練模型並finetune大概20個epoch。當在單尺度輸入下進行測試,輸入圖片尺寸設置爲768*768。我們在線評估了本文方法並和其他的優秀方法進行了對比。正如tab5中展示的那樣,我們的方法高出所有的方法至少3.1%個點。

5.7 Generaliization Ability

    爲了評估模型的通用能力,我們使用finetuned的ICDAR2015的模型測試COCO-Text數據集。設置圖片尺寸爲768*768。使用標註(V1.1)來對比其他方法,爲了公平起見,結果如tab6。在COCO-Text未訓練的場景下,我們的模型達到了42.5%的F值,比其他方法更好。

 

    除此之外,我們也在ICDAR2017 魯棒性閱讀挑戰COCO-Text標註(V1.4)上進行了評測,我們方法在所有排名中登頂。特別是當閾值設置爲0.75,我們方法超越其他方法很大一部分,這展示了本文方法在文本檢測方面的優越性。

5.8 Limitations

    本文方法的侷限性是當兩個文本實例非常接近時,它可能把兩個文本行預測成爲一個(fig7),因爲位置敏感分割可能失效。除此之外,該方法在扭曲文本方面檢測較差(fig7),因爲訓練集合中扭曲文本非常少。

6. Conclusion

    在這篇文章中,我們提出了一種使用邊角點和位置敏感分割來定位文本的場景文本檢測器。我們在一些文本區域爲多方向、水平長文本、多語言等的開源數據集上評測該方法。我們的方法具有更加卓越的性能,顯著的效果和更好的魯棒性。在未來,我們將要在所提方法上研究構造一種端到端的OCR體系。

References

見論文頁

https://arxiv.org/pdf/1802.08948.pdf

提交錯誤或技術交流請聯繫郵箱:[email protected]

歡迎互相交流學習

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章