本文地址:http://blog.csdn.net/mounty_fsc/article/details/51438447
《Robust Text Detection in Natural Scene Images》論文筆記
這篇文章是2014年PAMI上的文章,是目前文本檢測領域的state of the art.
該算法是基於MSERs的,主要內容有:
算法流程
1 Character candidates extraction
使用MSERs算法來產生字符候選區域,但是MSER算法可能產生過多的重複區域,因而需要剔除非文字的候選區域。根據MSER算法的性質,可以構造一棵MSERs樹,每個MSER對應爲一個可能的字符候選區域。
剔除的依據是,如果一個候選區域被認爲是字符,則父子結點都不可能是字符了,(因爲文字不會有相互包含關係),但問題是判斷一個結點是否爲字符講花費大量計算,一種比較好的方法是通過父子結點的關係來判斷是否爲字符,如果其MSER的variation小的則爲字符(即stable的字符)。
但variation最小的不一定就是字符,所以作者提出了regularized variation具體的做法是,先用linear reduction的方法,對一棵MSERs樹中度爲1的連接進行刪除,然後在用tree accumulation對度爲2的連接中進行刪除。
2 Text Candidates Construction
上一步生成了字符候選區域,這一步通過字符候選區域構建文本行。
使用的是single-link(agglomerate)聚類算法,是一種層次聚類算法,需要定義點跟點(1中候選字符區域)的距離。
在層次聚類中
3 Text Candidates Elimination
通過以上的步驟,得到了文本候選區域,但是之前的步驟得到的文本候選區域只有9%是真正的文本,所以作者接下來又設計了一個分類器來分類文本候選區域。
這個階段涉及兩個分類器,一個是Character分類器一個是Text分類器。首先通過Character分類器可以得到Text中預測的一個觀測
最後使用貝葉斯分類器來對文本分類,及
4 Extension to Multi-Orientation Text Detection
這個部分是爲了解決檢測非水平方向文本行的問題(但注意,文本還是在同一行上排列的),思路是使用啓發式方法,在1中生成字符候選區域後,使用3中Character分類器構造文本候選區域pair的優先級依次是(char,char),(non-char,char),(non-char,non-char),然後根據這些pair的優先級拓展文本的方向,來確定各個文本行的方向。確定文本行的方向後,再使用之前的方法進行檢測。
5 Experiment
最後的實驗是在ICDAR 2011,multilingual database, street view database以及multi-orientation database幾個數據集及方面展開的。