Chapter 11 Application example: Optical character recognition (reading notes)

0. 版权声明

  • Machine learning 系列笔记来源于Andrew Ng 教授在 Coursera 网站上所授课程 Machine learning1
  • 该系列笔记不以盈利为目的,仅用于个人学习、课后复习及交流讨论;
  • 如有侵权,请与本人联系([email protected]),经核实后即刻删除;
  • 转载请注明出处;

1. Problem description and pipeline

  • Optical character recognition (OCR,光学字符识别);
  • Photo OCR pipeline:
    • 文本检测(Text detection):找出图像中有文字的区域;
      • 用滑动窗找出可疑点,用展开器将可疑点扩展连接为可疑区域;
    • 字符分割(Character segmentation):将文本所在区域划分为一个个字符;
      • 应用监督学习的方法,使用一维滑动窗,判断图像块是否可分割;
        • 因为 Text detection 中已经找出了可疑区域,故此处使用一维滑动窗;
    • 字符分类(Character recognition):识别字符内容;
    • 拼写校正;

2. Sliding windows

  • Sliding windows (滑动窗):一种分类器;
    image patch:图像块;
  • step size/stride parameter:步长/步幅参数;
    • Sliding windows 每次移动的距离;
    • 常见的步长值有 4 个或 8 个像素等;
    • 由于检测器中输入图像的尺寸是不变的,因此选用较大的滑动窗取 image patch 时,需要将其压缩至检测器可以接收的图像尺寸;
  • Expansion operator(展开器):将检测器检测出的一个点扩展为一个小块,即将临近像素点也视为可疑目标,将相邻的字符转换为文本块;

3. Artificial data synthesis (人工数据合成)

  • 人工数据合成的两种类型:

    • 将较小的训练集扩展为更大的训练集;
    • 从头开始创建新的数据;
  • 待整理

    • 人工数据合成,artificial data synthesis;

n. Reference


  1. https://www.coursera.org/learn/machine-learning/home/welcome ↩︎

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章