关于数字图像人工文本定位论文撰写的思路梳理

**研究问题:**随着电影行业逐渐国际化,电影的展示方式也逐渐统一,大多数的电影,特别是国内的电影,都采用中英文双字字幕的展示方式,而国外电影的引进,也都在后期添加了中英文双字的字幕,这为广大英语爱好者学习英语口语提供了极大的便利,但是电影不同于教学视频,文字转变快,语速快慢不齐,给好多英语爱好者在通过电影学习口语的过程中造成了极大的困难,所以,目前急需一种科技方式,能将电影中的,每一句字幕提取出来,即将中英文双字字幕完全脱离电影,独立存放,独立展示,以便供学习者参考学习。

**研究方式:**运用数字图像处理相关知识完成对电影字幕的一系列操作

**具体研究方法:**通过对大量论文的阅读和整理,将电影字幕提取归纳到视频文本提取研究范畴中去。以下为视频文本提取相关知识:
(1)对视频的文本提取,其实是对视频中每一帧图像上的文本进行的提取;
(2)图像上的文本,分为场景文本和人工文本。场景文本,即图像中自然场景下的文本,如广告牌上的文字,汽车的车牌号码等。人工文本,即人为后期添加在图像上的文本信息,字幕,就是人工文本;’
(3)人工文本提取,分为文本定位,文本分割,文本识别。文本定位,文本提取全过程中最重要一环,找到图像中的文字区域,是后期一切操作的基础。文本分割,将定位到的文字进行切分处理,得到一系列单个字符。分本识别,对单个字符进行识别,将识别结果返回到用户眼前;
(4)文本定位,也称为文字区域提取,方法方向有四种,分别是:基于连通区域的文本定位,基于纹理的文本定位,基于边缘的文本定位,基于学习的文字定位,每种方向涉及知识不同,需要有一定基础;
(5)文本分割,方法方向也四种,分别是:颜色阈值法,分裂合并,颜色聚类法,基于颜色模型;
(6)文字识别,即文本识别,方法方向四种,分别是:统计识别方法,统计与结构相结合识别方法,人工神经网络用于文字识别,SVM(支持向量机);
(7)以上,便是文本提取全过程,(4)、(5)、(6)每一步骤运用何种方法可以自由选择,排列组合就可以得到最终结果(仅限于目前的想法),可能一些组合最终结果差强人意,说明这个组合效果不好,在这64种组合中(444)找出最优解,将是一件旷日持久的事情。
另:基于笔划宽度,笔划识别的文字定位方法也是最新的定位技术。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章