PDF 文字识别

PDF 文字识别

在实际工作生活中有时候需要参看pdf 文件写ppt 等文件。但是如果此时PDF 是图片格式那就没有办法去复制粘贴,这个时候需要把PDF 转为word 文档,或者把字copy 出来。OCR 技术就可以解决这个问题。很多PDF 阅读器其实内嵌了这种功能,但是都要付费。。。因为穷…以及不服,这个时候就可以到全球最大同性交友网站github找轮子。

OCRmyPDF

pdf OCR 工具

字面意思就是扫描你的PDF 识别问题,转换。

安装

mac 下安装非常方便,其他系统git上也有提供方式。

brew install ocrmypdf

依赖可以说非常多,安装比较耗时。

安装完查看是否成功

 guifeng.chen  /Users/guifeng.chen/Desktop   ocrmypdf -h                                                              19:54:10
usage: ocrmypdf [-h] [-l LANGUAGE] [--image-dpi DPI]
                [--output-type {pdfa,pdf,pdfa-1,pdfa-2,pdfa-3}]
                [--sidecar [FILE]] [--version] [-j N] [-q] [-v [VERBOSE]]
                [--title TITLE] [--author AUTHOR] [--subject SUBJECT]
                [--keywords KEYWORDS] [-r] [--remove-background] [-d] [-c]
                [-i] [--unpaper-args UNPAPER_ARGS] [--oversample DPI]
                [--remove-vectors] [--threshold] [-f] [-s] [--redo-ocr]
                [--skip-big MPixels] [-O {0,1,2,3}] [--jpeg-quality Q]
                [--png-quality Q] [--jbig2-lossy] [--pages PAGES]
                [--max-image-mpixels MPixels] [--tesseract-config CFG]
                [--tesseract-pagesegmode PSM] [--tesseract-oem MODE]
                [--pdf-renderer {auto,hocr,sandwich}]
                [--tesseract-timeout SECONDS]
                [--rotate-pages-threshold CONFIDENCE]
                [--pdfa-image-compression {auto,jpeg,lossless}]
                [--user-words FILE] [--user-patterns FILE]
                [--fast-web-view MEGABYTES] [-k]
                input_pdf_or_image output_pdf

Generates a searchable PDF or PDF/A from a regular PDF.

使用

  • -l 表示语言 chi_sim 指定中文简体
  • 7s.pdf 为源文件 output.pdf 为输出文件名
  • sidecar 单独把文字输出
ocrmypdf -l chi_sim 7S.pdf output.pdf --sidecar 7s.txt

tesseract

直接使用如上命令可能会报错,因为他自身并不支持中文,工具底层还是使用tesseract 这个图像识别工具。为了支持各种语言,需要进一步安装。

安装所有的语言集。

brew install tesseract-lang

有兴趣了解的附上github地址 tesseract

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章