文章目录
0. 版权声明
- Machine learning 系列笔记来源于Andrew Ng 教授在 Coursera 网站上所授课程 Machine learning1;
- 该系列笔记不以盈利为目的,仅用于个人学习、课后复习及交流讨论;
- 如有侵权,请与本人联系([email protected]),经核实后即刻删除;
- 转载请注明出处;
1. Problem description and pipeline
- Optical character recognition (OCR,光学字符识别);
- Photo OCR pipeline:
- 文本检测(Text detection):找出图像中有文字的区域;
- 用滑动窗找出可疑点,用展开器将可疑点扩展连接为可疑区域;
- 字符分割(Character segmentation):将文本所在区域划分为一个个字符;
- 应用监督学习的方法,使用一维滑动窗,判断图像块是否可分割;
- 因为 Text detection 中已经找出了可疑区域,故此处使用一维滑动窗;
- 应用监督学习的方法,使用一维滑动窗,判断图像块是否可分割;
- 字符分类(Character recognition):识别字符内容;
- 拼写校正;
- 文本检测(Text detection):找出图像中有文字的区域;
2. Sliding windows
- Sliding windows (滑动窗):一种分类器;
image patch:图像块; - step size/stride parameter:步长/步幅参数;
- Sliding windows 每次移动的距离;
- 常见的步长值有 4 个或 8 个像素等;
- 由于检测器中输入图像的尺寸是不变的,因此选用较大的滑动窗取 image patch 时,需要将其压缩至检测器可以接收的图像尺寸;
- Expansion operator(展开器):将检测器检测出的一个点扩展为一个小块,即将临近像素点也视为可疑目标,将相邻的字符转换为文本块;
3. Artificial data synthesis (人工数据合成)
-
人工数据合成的两种类型:
- 将较小的训练集扩展为更大的训练集;
- 从头开始创建新的数据;
-
待整理
- 人工数据合成,artificial data synthesis;