PDF 文字识别
在实际工作生活中有时候需要参看pdf 文件写ppt 等文件。但是如果此时PDF 是图片格式那就没有办法去复制粘贴,这个时候需要把PDF 转为word 文档,或者把字copy 出来。OCR 技术就可以解决这个问题。很多PDF 阅读器其实内嵌了这种功能,但是都要付费。。。因为穷…以及不服,这个时候就可以到全球最大同性交友网站github找轮子。
OCRmyPDF
字面意思就是扫描你的PDF 识别问题,转换。
安装
mac 下安装非常方便,其他系统git上也有提供方式。
brew install ocrmypdf
依赖可以说非常多,安装比较耗时。
安装完查看是否成功
guifeng.chen /Users/guifeng.chen/Desktop ocrmypdf -h 19:54:10
usage: ocrmypdf [-h] [-l LANGUAGE] [--image-dpi DPI]
[--output-type {pdfa,pdf,pdfa-1,pdfa-2,pdfa-3}]
[--sidecar [FILE]] [--version] [-j N] [-q] [-v [VERBOSE]]
[--title TITLE] [--author AUTHOR] [--subject SUBJECT]
[--keywords KEYWORDS] [-r] [--remove-background] [-d] [-c]
[-i] [--unpaper-args UNPAPER_ARGS] [--oversample DPI]
[--remove-vectors] [--threshold] [-f] [-s] [--redo-ocr]
[--skip-big MPixels] [-O {0,1,2,3}] [--jpeg-quality Q]
[--png-quality Q] [--jbig2-lossy] [--pages PAGES]
[--max-image-mpixels MPixels] [--tesseract-config CFG]
[--tesseract-pagesegmode PSM] [--tesseract-oem MODE]
[--pdf-renderer {auto,hocr,sandwich}]
[--tesseract-timeout SECONDS]
[--rotate-pages-threshold CONFIDENCE]
[--pdfa-image-compression {auto,jpeg,lossless}]
[--user-words FILE] [--user-patterns FILE]
[--fast-web-view MEGABYTES] [-k]
input_pdf_or_image output_pdf
Generates a searchable PDF or PDF/A from a regular PDF.
使用
- -l 表示语言 chi_sim 指定中文简体
- 7s.pdf 为源文件 output.pdf 为输出文件名
- sidecar 单独把文字输出
ocrmypdf -l chi_sim 7S.pdf output.pdf --sidecar 7s.txt
tesseract
直接使用如上命令可能会报错,因为他自身并不支持中文,工具底层还是使用tesseract 这个图像识别工具。为了支持各种语言,需要进一步安装。
安装所有的语言集。
brew install tesseract-lang
有兴趣了解的附上github地址 tesseract