关于数字图像人工文本定位论文撰写的思路梳理

原創

2020-06-12 22:59

**研究问题：**随着电影行业逐渐国际化，电影的展示方式也逐渐统一，大多数的电影，特别是国内的电影，都采用中英文双字字幕的展示方式，而国外电影的引进，也都在后期添加了中英文双字的字幕，这为广大英语爱好者学习英语口语提供了极大的便利，但是电影不同于教学视频，文字转变快，语速快慢不齐，给好多英语爱好者在通过电影学习口语的过程中造成了极大的困难，所以，目前急需一种科技方式，能将电影中的，每一句字幕提取出来，即将中英文双字字幕完全脱离电影，独立存放，独立展示，以便供学习者参考学习。

**研究方式：**运用数字图像处理相关知识完成对电影字幕的一系列操作

**具体研究方法：**通过对大量论文的阅读和整理，将电影字幕提取归纳到视频文本提取研究范畴中去。以下为视频文本提取相关知识：
(1)对视频的文本提取，其实是对视频中每一帧图像上的文本进行的提取；
(2)图像上的文本，分为场景文本和人工文本。场景文本，即图像中自然场景下的文本，如广告牌上的文字，汽车的车牌号码等。人工文本，即人为后期添加在图像上的文本信息，字幕，就是人工文本；’
(3)人工文本提取，分为文本定位，文本分割，文本识别。文本定位，文本提取全过程中最重要一环，找到图像中的文字区域，是后期一切操作的基础。文本分割，将定位到的文字进行切分处理，得到一系列单个字符。分本识别，对单个字符进行识别，将识别结果返回到用户眼前；
(4)文本定位，也称为文字区域提取，方法方向有四种，分别是：基于连通区域的文本定位，基于纹理的文本定位，基于边缘的文本定位，基于学习的文字定位，每种方向涉及知识不同，需要有一定基础；
(5)文本分割，方法方向也四种，分别是：颜色阈值法，分裂合并，颜色聚类法，基于颜色模型；
(6)文字识别，即文本识别，方法方向四种，分别是：统计识别方法，统计与结构相结合识别方法，人工神经网络用于文字识别，SVM(支持向量机)；
(7)以上，便是文本提取全过程，(4)、(5)、(6)每一步骤运用何种方法可以自由选择，排列组合就可以得到最终结果(仅限于目前的想法)，可能一些组合最终结果差强人意，说明这个组合效果不好，在这64种组合中(444)找出最优解，将是一件旷日持久的事情。
另:基于笔划宽度，笔划识别的文字定位方法也是最新的定位技术。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

关于数字图像人工文本定位论文撰写的思路梳理

redis的key乱码问题和值自增问题

CORS error 但是 status code 是200 OK

一个开源且全面的C#算法实战教程

一款.NET开源、功能强大、跨平台的绘图库 - OxyPlot

压缩上传的GPU数据的方案

使用skopeo同步镜像

Pycharm+Python之wxPython安裝教程

關於數字圖像人工文本定位論文撰寫的思路梳理

深度學習之損失函數理解

深度學習之邏輯迴歸-假設函數

深度學習之MNIST數據集的導入

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結