文章目錄
0. 版權聲明
- Machine learning 系列筆記來源於Andrew Ng 教授在 Coursera 網站上所授課程 Machine learning1;
- 該系列筆記不以盈利爲目的,僅用於個人學習、課後複習及交流討論;
- 如有侵權,請與本人聯繫([email protected]),經覈實後即刻刪除;
- 轉載請註明出處;
1. Problem description and pipeline
- Optical character recognition (OCR,光學字符識別);
- Photo OCR pipeline:
- 文本檢測(Text detection):找出圖像中有文字的區域;
- 用滑動窗找出可疑點,用展開器將可疑點擴展連接爲可疑區域;
- 字符分割(Character segmentation):將文本所在區域劃分爲一個個字符;
- 應用監督學習的方法,使用一維滑動窗,判斷圖像塊是否可分割;
- 因爲 Text detection 中已經找出了可疑區域,故此處使用一維滑動窗;
- 應用監督學習的方法,使用一維滑動窗,判斷圖像塊是否可分割;
- 字符分類(Character recognition):識別字符內容;
- 拼寫校正;
- 文本檢測(Text detection):找出圖像中有文字的區域;
2. Sliding windows
- Sliding windows (滑動窗):一種分類器;
image patch:圖像塊; - step size/stride parameter:步長/步幅參數;
- Sliding windows 每次移動的距離;
- 常見的步長值有 4 個或 8 個像素等;
- 由於檢測器中輸入圖像的尺寸是不變的,因此選用較大的滑動窗取 image patch 時,需要將其壓縮至檢測器可以接收的圖像尺寸;
- Expansion operator(展開器):將檢測器檢測出的一個點擴展爲一個小塊,即將臨近像素點也視爲可疑目標,將相鄰的字符轉換爲文本塊;
3. Artificial data synthesis (人工數據合成)
-
人工數據合成的兩種類型:
- 將較小的訓練集擴展爲更大的訓練集;
- 從頭開始創建新的數據;
-
待整理
- 人工數據合成,artificial data synthesis;