瞎扯

按着昨天的想法,今天上午研究了一上午.
集成了tesseract-ocr,环境搞了半天

然后呢,发现不太好使.

哪不好使呢.

不好使的地方:

最后还是,发现,不要乱改,默认就好,
然后配环境变量,各种找原因.不好使.
一直报NotFount.
最后,卸载,默认安装,啥也不改.就成了
然后对于识别库的路径,引用好像也有问题.不过这个好解决.代码动态配置就行

发现在不训练,不加其他图片处理方法的情况下,提高成功率的办法.
1.图片中的字,显示要大,字之间的间距大一点
2.图片中的文字.粗一点
3.图片中的文字最好是宋体,正楷这种.比较常见标准的字体
4.不要有边框

玩了半天,总结起来,就是.要想真正用起来,必须花很多时间去训练字体库.大工程一个.
所以思来想去,还是放弃了.
按我的需求,其实我完全可以用百度免费的识别就完了,一天3万次好像,完全够用.

其实真要这么简单弄出来,个人用感觉都浪费了..哈哈

不过换了种方式,既然达不到那么智能,只能就退而求次.
争取只复制操作一次,代码写的差不多了.就差改进优化了.哈哈

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.