Chapter 11 Application example: Optical character recognition (reading notes)

0. 版權聲明

  • Machine learning 系列筆記來源於Andrew Ng 教授在 Coursera 網站上所授課程 Machine learning1
  • 該系列筆記不以盈利爲目的,僅用於個人學習、課後複習及交流討論;
  • 如有侵權,請與本人聯繫([email protected]),經覈實後即刻刪除;
  • 轉載請註明出處;

1. Problem description and pipeline

  • Optical character recognition (OCR,光學字符識別);
  • Photo OCR pipeline:
    • 文本檢測(Text detection):找出圖像中有文字的區域;
      • 用滑動窗找出可疑點,用展開器將可疑點擴展連接爲可疑區域;
    • 字符分割(Character segmentation):將文本所在區域劃分爲一個個字符;
      • 應用監督學習的方法,使用一維滑動窗,判斷圖像塊是否可分割;
        • 因爲 Text detection 中已經找出了可疑區域,故此處使用一維滑動窗;
    • 字符分類(Character recognition):識別字符內容;
    • 拼寫校正;

2. Sliding windows

  • Sliding windows (滑動窗):一種分類器;
    image patch:圖像塊;
  • step size/stride parameter:步長/步幅參數;
    • Sliding windows 每次移動的距離;
    • 常見的步長值有 4 個或 8 個像素等;
    • 由於檢測器中輸入圖像的尺寸是不變的,因此選用較大的滑動窗取 image patch 時,需要將其壓縮至檢測器可以接收的圖像尺寸;
  • Expansion operator(展開器):將檢測器檢測出的一個點擴展爲一個小塊,即將臨近像素點也視爲可疑目標,將相鄰的字符轉換爲文本塊;

3. Artificial data synthesis (人工數據合成)

  • 人工數據合成的兩種類型:

    • 將較小的訓練集擴展爲更大的訓練集;
    • 從頭開始創建新的數據;
  • 待整理

    • 人工數據合成,artificial data synthesis;

n. Reference


  1. https://www.coursera.org/learn/machine-learning/home/welcome ↩︎

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章