歷史與未來，帶你瞭解深度學習OCR

轉載：https://zhuanlan.zhihu.com/p/363523508

1. OCR基礎

光學字符識別（Optical Character Recognition）簡稱OCR，是一種能夠從圖像或者視頻中自動識別文本內容，自動轉化成機器可讀、可處理的結構化字符信息的技術，發揮着計算機“眼睛”的功能。OCR是機器與現實世界進行交互的重要基礎設施，也被稱爲最“接地氣”的人工智能技術，現已廣泛應用在金融，政府，物流，醫療，教育等多個領域。在數字化的浪潮中，OCR將進一步提升信息採集的效率，降低人工成本，極大加速產業轉型。

2. OCR的發展歷程

1929年，OCR概念首次被科學家提出，到了20世紀60年代~70年代，各國已經開始了OCR的正式研究，但早期的識別研究，主要是以識別數字爲主。隨着互聯網的發展，海量訓練數據的持續積累，待引入深度學習之後，OCR再一次取得了飛躍性發展——使用範圍明顯擴大。在這篇博客中，我們將基於深度學習的OCR技術稱爲深度OCR，深度學習出現之前的OCR稱爲傳統OCR。

3. 傳統OCR

在AlexNet在ImageNet奪冠以前，計算機視覺（CV）算法在OCR領域占主導地位。標準的處理流程主要包括：圖像預處理、文本（字符）檢測、字符分割、字符識別、字符識別以及識別結果後處理。其中圖像預處理主要是對圖像的成像問題進行修正，包括幾何變換（透視、扭曲、旋轉等），去模糊、光線矯正等。

經典的傳統文本檢測算法多是一個自下而上的過程，應用的算法主要分成連通域和滑動窗口兩個方向並且主要依據人工設計的特徵。而常用的字符識別算法主要包括圖像分類以及模板匹配等。

受限於傳統計算機視覺算法，傳統OCR僅在比較規整的印刷文檔上表現良好，如質量好的掃描文檔。因爲傳統OCR常依賴於複雜的流程優化和手動設計去適配場景，場景通用性較差，在不同的業務場景下，常需要大量的手動微調來適應差異；複雜場景（如低分辨率、圖像模糊、圖像退化等場景）之下，文字識別性能和準確率都不夠理想。

4. 深度學習OCR

2012年，隨着深度學習算法在圖像分類任務上取得了巨大的成功以及後來的物體識別算法研究的進展，OCR領域也引入了深度學習的思想——使用卷積神經網絡（CNN）來取代傳統的手工特徵設計。深度學習OCR主要分爲“獨立兩階段方法”和“端到端的文本定識方法”。

“獨立兩階段方法”會對文本檢測和文本識別進行單獨建模。文本檢測模塊主要是負責對文本區域以及方向的檢測，目前常用的文本識別算法包含經典的物體識別算法（比如：SSD）；物體分割算法（比如：PixelLink）以及特定的文本檢測算法（比如：CTPN）等。不同的算法具有不同的特性，如基於分割的算法，雖然不受限文本大小以及形狀，但對距離近的文本行容易出現文本行粘連的問題。

文本識別模塊是對檢測出的文本框進行文本識別，主要方法是通過卷積神經網絡來提取文本圖片特徵作爲輸入，引用LSTM+CTC技術或者基於attention來識別不定長的文本內容。CTC技術能有效的捕獲輸入序列的上下文依賴關係，解決圖像和文本字符對齊的問題，但因爲CTC解碼的特徵歧義性，需要大量訓練數據才能得到理想的準確率。基於attention的文本識別具有天然的可解釋性，可以通過學習權重來定位到相應的特徵向量，有效地提升了OCR模型的特徵表達能力。

“端到端文本定識方法”的主要思想是整合文本檢測和識別到一個網絡進行訓練，能夠更好地共享權重以及整體優化模型，避免“獨立兩階段方法”訓練下的信息丟失。

5. 複雜場景下的OCR挑戰

深度學習算法出現使得OCR技術出現了顯著的提升，但是與人類理解圖片文字的能力，依舊存在一定差距。

在現實場景中，影響識別效果的複雜因素包括：複雜背景、低分辨率、字符變形、多語言混合、圖像退化，文本字符殘缺以及形變等。隨着各類OCR應用的增加，對OCR的識別性能也提出了更高的要求，比如，雲端OCR需要的“低延遲”“高併發”，移動端OCR常被需求“強兼容性”“高運行效率”等。

雖然深度OCR能較好的解決文本識別問題，但業務中需要將圖片文檔（卡證、表格等）文字結構化仍需要解決文檔樣式分析。2017年後，OCR開始引入自然語言處理技術（NPL），OCR技術和自然語言處理技術的結合賦予了OCR技術真正理解文字內容的能力，語義信息的關聯可以改善業務端到端的OCR解決方案。

6. 領創智信OCR技術的創新與突破

領創智信OCR技術的應用，適配場景主要包括：卡證識別和行業表格文檔識別，同時也提供移動端的OCR質量檢測服務。領創智信深耕人工智能領域多年，業務從東南亞市場逐步拓展到全球市場，對我們自主研發的OCR技術性能的擴展性提出了更高的要求。如何能夠更快、更低成本地開發出支持識別多種證件，且保持高效、精準識別效果的OCR服務，這是我們要迎戰的技術挑戰。

在實際的業務落地過程中，領創智信不斷總結經驗，致力於提供最優質的OCR服務，隨着業務的不斷增長，領創智信的OCR技術也在日漸完善，其創新和突破包括：

自動生成文本數據：減少對實際場景數據的依賴，降低數據採集和標註的成本。
流水線化OCR開發：領創智信搭建有一套自主研發的Auto OCR平臺系統，在這個平臺上，數據採集完後，能自動將數據標註。領創智信將模型開發以及複雜數據的挖掘集合到一個完整的生態系統，可以有效加速模型的迭代。
自動版式的分析：取代傳統的人工設計規則來實現對多種卡證的支持，減少對算法人員依賴，擴展性更強。
提供OCR質量檢測SDK來完善整個OCR研發生態系統：此套SDK可以覆蓋檢測從用戶照片採集到雲端識別的整個OCR流程，能夠更加靈活的控制採集質量，滿足用戶的定製化需求，提升OCR的用戶體驗。

7. 深度學習OCR的未來

作爲計算機“眼睛”功能的重要組成部分，OCR將會隨着技術的發展，不斷被應用在更多的領域。OCR技術結合自然語義識別技術，機器將會真正具有“理解力”——即精準理解外在世界文本內容的能力，提供文本結構化的能力。未來，OCR服務載體還會更加多樣化，不僅包括多樣的終端載體（如智能手機、智能電子產品等），雲端服務也會更加多樣，並降低使用門檻和成本。

目前，深度學習OCR已廣泛應用於卡證識別、票據單據識別、汽車相關識別（駕駛證、行駛證、車牌等）、行業文檔識別等傳統領域，並開始深入服務於互聯網廣告推薦系統的圖像內容提取，廣告審覈以及用戶理解等，但端對端的OCR技術依然還有待完善。在未來，當計算機能夠更好理解現實世界的文字內容時，繁瑣、耗時的文檔錄入工作將變得更加輕鬆、高效。

歷史與未來，帶你瞭解深度學習OCR

歷史與未來，帶你瞭解深度學習OCR

OCR深度實踐系列（四）：文本識別

OCR深度實踐系列（三）：文本檢測

OCR深度實踐系列：數據生成

OCR深度實踐系列：圖像預處理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結