【轉自“果殼網”微軟亞洲學院】光學字符識別技術:讓電腦“讀”懂世界

來源:光學字符識別技術:讓電腦“讀”懂世界

把手機攝像頭對準菜單上的法語菜名,屏幕上實時顯示出翻譯好的中文菜名;批量掃描書籍,將全世界圖書館的藏書轉化爲電子書;街景車遊走於大街小巷,拍攝街景的同時也從圖像中自動提取文字標識,讓地圖信息更豐富準確……這些場景的背後,是一項共同的關鍵技術——光學字符識別(Optical Character Recognition,OCR)。

 

慧眼讀世界

鼠標發明人道格拉斯·恩格爾巴特(Douglas Engelbart)曾經針對人工智能的簡稱“AI”提出了另一個理念——Augmented Intelligence,增強智能。在他看來,人已經足夠聰明,我們無需再去複製人類,而是可以從更加實用的角度,將人類的智能進一步延伸,讓機器去增強人的智能。智能眼鏡就是這樣的產品:去超市的時候戴上一副,看到心儀商品上的文字,自動搜索出詳細信息:生產商情況、在不同電商平臺的價格等等。

讓智能眼鏡“讀懂”文字的,正是OCR技術。OCR本質上是利用光學設備去捕獲圖像,無論是今天的手機、照相機,還是未來的智能可穿戴設備,只要有文字,就能去認出來。設想一下,在未來的工作會議中,只要手機等智能設備給會議白板拍照,系統便能自動識別白板上的討論內容,分檢出相關人員的後續工作,並將待辦事項自動存放到各自的電子日曆中。在OCR技術的支持下,這樣的場景將不是夢想。

微軟去年推出的Office Lens應用就向夢想的實現邁進了一小步。在研究院語音團隊的核心支持下,這一技術已經可以通過視覺計算技術實現對圖像的自動清理,並利用基於雲端的OCR技術將對圖片進行文字識別,最終返還給用戶一個可編輯、可搜索的數字文件。

微軟幾年前推出的手機應用Translator,除了支持文本和語音翻譯外,還能用手機拍攝不同語言的菜單或指示牌,翻譯結果立即浮現於原文之上。Office Lens和Translator這兩款產品中的“中日韓”OCR核心技術就來自微軟亞洲研究院的語音團隊。

OCR (Optical Character Recognition,光學字符識別)就是這樣的一項技術,它的本質上是利用光學設備去捕獲圖像並識別文字,將人眼的能力延伸到機器上。本文將介紹OCR技術在移動環境下面臨的新挑戰,以及在自然場景圖像下微軟研究院文字識別技術的進展。

圖片來源:research.microsoft.com   

輝煌與挑戰

OCR技術的應用經歷了超過半個世紀的摸索優化。早在20世紀50年代,IBM就開始利用OCR技術實現各類文檔的數字化。但早期的OCR設備龐大而複雜,只能處理乾淨背景下的某種特定的印刷字體。20世紀80年代,平板掃描儀的誕生讓OCR進入商用階段,設備更爲輕便靈巧,可以處理的字體數量也增多,但對文字的背景要求仍然很高,需要很好的成像質量才能保證效果。

到了20世紀90年代,平板掃描儀對印刷體文本的識別率就已經達到99%以上,可謂OCR應用迎來的第一個高潮。當時最著名的事件是谷歌數字圖書館,谷歌還申請了圖書掃描專利,實現了批量化的高速掃描。在此期間,手寫字體的識別也在並行發展,被廣泛用於郵件分揀、支票分類、手寫表格數字化等領域。

這樣的成就,一度讓大家誤以爲OCR技術已經登峯造極,但自從2004年擁有300萬像素攝像頭的智能手機誕生之日起,OCR的發展又有了新的追求:越來越多的人隨手拿起手機拍攝所看到的事物和場景,此類自然場景中的文字識別難度遠遠高於平板掃描儀時期,即便是印刷字體,也不能得到很高的識別率,更別說手寫體了。學術界因此將自然場景中的文字識別作爲全新的課題來對待。

與此同時,雲計算、大數據以及通訊網絡的快速發展,實現了智能手機的24小時在線,前端採用手機攝像頭進行文字捕捉,後端可以對其進行實時分析和處理,二者的結合讓OCR的未來應用模式充滿想象。因此,對OCR的研究再度成爲學術界的焦點,無論是前端識別技術還是後端的關聯應用領域,都有着無限可能。

自然場景下的文字檢測

自然場景圖像中的文字識別之所以大大難於掃描儀圖像中的文字識別,是因爲它具有極大的多樣性和明顯的不確定性。文字所屬的語言、字母的字體參數、文本行的排列和對齊方式等因素,都影響着識別的效果。由於拍攝圖像的隨意性,圖像中的文字區域還可能會產生變形(透視和仿射變換)、殘缺、模糊斷裂等現象。

此外,與傳統 OCR 技術中的掃描文檔圖像相比,自然場景圖像的背景也更爲複雜。如文字可能寫在曲面上、文字區域附近有複雜的紋理和噪聲、圖像中的非文字區域有跟文字區域非常相似的紋理(比如窗戶、樹葉、柵欄、磚牆)等等。這些複雜背景會極大增加誤檢率。

通常,OCR識別的步驟可以分爲兩步:首先是文本檢測(Text detection),將文字從圖片中提取出來;然後,對文本進行識別(Recognition)。微軟亞洲研究院團隊對相關技術和算法進行了針對性的優化和創新,對文本檢測環節進行了改進。

文本檢測首先要從圖像中切割出可能存在的文字,即“候選連通區域”,然後再對其進行文字/非文字分類。一個字母或文字通常可以分爲若干個連通區域,如字母“o”就只有一個連通區域,“i”則擁有兩個連通區域。在確定候選連通區域階段,我們創新地採用了對比極值區域CER(Contrasting Extremal Region),選取跟周圍的背景有一定對比度的極值區域,通過大幅縮小候選範圍,提高了算法的效率。

受噪聲影響的CER示例。圖片來源:霍強

由於在圖像模糊、分辨率低或者噪聲較多時,提取出來的CER有可能會含有冗餘像素或者噪聲,這些冗餘像素或者噪聲的存在會使得後面的文字/非文字分類問題變得更爲複雜。爲了提高所獲得的候選連通區域的質量,微軟亞洲研究院團隊決定增加一個算法環節去增強CER。我們利用圖像的顏色信息儘可能地濾除CER中的冗餘像素或者噪聲,得到具有視覺感知一致性的顏色空間。這一空間對光照不敏感,更接近人眼對顏色的判斷。

算法提取出來的候選連通區域結果示例。圖片來源:霍強

當系統獲得了高質量的候選連通區域,就需要對其中的字符進行分辨,確定其是否爲文字或非文字。微軟亞洲研究院團隊提出了一套基於淺層神經網絡的文字/非文字分類算法,比以往的算法更加有效。這個算法根據文字本身的特性採用分治策略將原始問題空間劃分爲5個子空間,每個子空間對應一類文字樣本,每個候選連通區域被劃分到這5類中的一種。在每個子空間中,都有一個相應的淺層神經網絡作爲該子空間的文字/非文字分類器——我們可以將該神經網絡看作是一個黑盒子,在經過大量學習之後,它便能較爲準確的將文字與非文字分類。

文字類問題空間劃分示例

在每個子空間中,微軟亞洲研究院團隊利用無歧義學習策略訓練一個相應的淺層神經網絡,作爲該子空間的文字/非文字分類器,我們可以將該神經網絡看作是一個黑盒子,在經過大量學習之後,它便能較爲準確的將文字與非文字分類。

每次分類動作包括兩個階段——預剪枝(Pre-pruning)階段和驗證(Verification)階段。在預剪枝階段,分類器的任務是儘可能濾除無歧義的非文字候選連通區域;在驗證階段,則通過引入更多信息來消除孤立連通區域的歧義性,從而進一步濾除有歧義的非文字候選連通區域。

 

文字類問題空間劃分示例。圖片來源:霍強

這些改進大大增強了OCR在自然場景中的識別本領。之前,在自然場景文字檢測的標準數據集進行測試,業界最好的技術所能達到的檢測精度是88.5%,而召回率只有66.5%。而在2014年8月,微軟亞洲研究院團隊在瑞典首都斯德哥爾摩舉辦的國際模式識別大會(ICPR)上進行的自然場景文字檢測測試中取得了92.1%的檢測精度和92.3%的召回率。隨着研究工作的不斷突破,OCR必定還會煥發新機,衍生出更多振奮人心的應用。

(編輯:Calo)

 

應用前景分析

人類需求牽引科技發展走到今天,智慧的無限延伸決定了世界的無限潛能。10年前的簡單通訊工具手機如今已成爲智慧生活的伴侶,曾經只被掃描儀應用的OCR技術亦已煥發新機。隨着OCR研究工作的不斷突破,雲計算、大數據以及通訊網絡的快速發展,以及智能眼鏡、可穿戴設備等智能設備的推陳出新,OCR的應用也將充滿無限機會、無限可能性。

我們也可以設想一下OCR在未來工作中的應用場景:每次工作會議後,無需再把白板上的討論內容抄寫下來,然後羣發郵件佈置任務,前端只要將白板用手機等智能設備拍照留存,後端可以對其進行實時分析和處理,系統便能自動識別並分檢出相關人員的後續工作,並將待辦事項自動存放到各自的電子日曆中。

事實上,基於微軟亞洲研究院的OCR核心技術,微軟前不久推出的Office Lens應用,已經可以通過視覺計算技術自動對圖像進行清理並把它保存到OneNote,而OneNote中基於雲端的OCR技術將對圖片進行文字識別,隨後用戶就可以擁有一個可編輯、可搜索的數字文件,這爲上述未來應用場景打下了基礎。

作者簡介:

霍強博士,微軟亞洲研究院首席研究員

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章