(Paper)Robust Text Detection in Natural Scene Images

本文地址:http://blog.csdn.net/mounty_fsc/article/details/51438447

《Robust Text Detection in Natural Scene Images》論文筆記

這篇文章是2014年PAMI上的文章,是目前文本檢測領域的state of the art.

該算法是基於MSERs的,主要內容有:

算法流程

1 Character candidates extraction

使用MSERs算法來產生字符候選區域,但是MSER算法可能產生過多的重複區域,因而需要剔除非文字的候選區域。根據MSER算法的性質,可以構造一棵MSERs樹,每個MSER對應爲一個可能的字符候選區域。
剔除的依據是,如果一個候選區域被認爲是字符,則父子結點都不可能是字符了,(因爲文字不會有相互包含關係),但問題是判斷一個結點是否爲字符講花費大量計算,一種比較好的方法是通過父子結點的關係來判斷是否爲字符,如果其MSER的variation小的則爲字符(即stable的字符)。
但variation最小的不一定就是字符,所以作者提出了regularized variation具體的做法是,先用linear reduction的方法,對一棵MSERs樹中度爲1的連接進行刪除,然後在用tree accumulation對度爲2的連接中進行刪除。

2 Text Candidates Construction

上一步生成了字符候選區域,這一步通過字符候選區域構建文本行。

使用的是single-link(agglomerate)聚類算法,是一種層次聚類算法,需要定義點跟點(1中候選字符區域)的距離。

在層次聚類中ε 爲一個閾值,最後的生成的聚類,聚類與聚類間的距離(兩個聚類中每個點的距離)都大於ε ,聚類內的值都小於該值,作者利用這個性質設計了一個self-training的邏輯迴歸分類器,來計算距離參數d(u,v;w)=wTxu,v 中的w 以及ε

3 Text Candidates Elimination

通過以上的步驟,得到了文本候選區域,但是之前的步驟得到的文本候選區域只有9%是真正的文本,所以作者接下來又設計了一個分類器來分類文本候選區域。
這個階段涉及兩個分類器,一個是Character分類器一個是Text分類器。首先通過Character分類器可以得到Text中預測的一個觀測O(m,n;p)m 是包含字符數量,n 爲Character判斷爲非文本的個數,p 爲該分類器的精度。
最後使用貝葉斯分類器來對文本分類,及P(nontext|O(m,n;p))ε)

4 Extension to Multi-Orientation Text Detection

這個部分是爲了解決檢測非水平方向文本行的問題(但注意,文本還是在同一行上排列的),思路是使用啓發式方法,在1中生成字符候選區域後,使用3中Character分類器構造文本候選區域pair的優先級依次是(char,char),(non-char,char),(non-char,non-char),然後根據這些pair的優先級拓展文本的方向,來確定各個文本行的方向。確定文本行的方向後,再使用之前的方法進行檢測。

5 Experiment

最後的實驗是在ICDAR 2011,multilingual database, street view database以及multi-orientation database幾個數據集及方面展開的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章