PDF 文字識別
在實際工作生活中有時候需要參看pdf 文件寫ppt 等文件。但是如果此時PDF 是圖片格式那就沒有辦法去複製粘貼,這個時候需要把PDF 轉爲word 文檔,或者把字copy 出來。OCR 技術就可以解決這個問題。很多PDF 閱讀器其實內嵌了這種功能,但是都要付費。。。因爲窮…以及不服,這個時候就可以到全球最大同性交友網站github找輪子。
OCRmyPDF
字面意思就是掃描你的PDF 識別問題,轉換。
安裝
mac 下安裝非常方便,其他系統git上也有提供方式。
brew install ocrmypdf
依賴可以說非常多,安裝比較耗時。
安裝完查看是否成功
guifeng.chen /Users/guifeng.chen/Desktop ocrmypdf -h 19:54:10
usage: ocrmypdf [-h] [-l LANGUAGE] [--image-dpi DPI]
[--output-type {pdfa,pdf,pdfa-1,pdfa-2,pdfa-3}]
[--sidecar [FILE]] [--version] [-j N] [-q] [-v [VERBOSE]]
[--title TITLE] [--author AUTHOR] [--subject SUBJECT]
[--keywords KEYWORDS] [-r] [--remove-background] [-d] [-c]
[-i] [--unpaper-args UNPAPER_ARGS] [--oversample DPI]
[--remove-vectors] [--threshold] [-f] [-s] [--redo-ocr]
[--skip-big MPixels] [-O {0,1,2,3}] [--jpeg-quality Q]
[--png-quality Q] [--jbig2-lossy] [--pages PAGES]
[--max-image-mpixels MPixels] [--tesseract-config CFG]
[--tesseract-pagesegmode PSM] [--tesseract-oem MODE]
[--pdf-renderer {auto,hocr,sandwich}]
[--tesseract-timeout SECONDS]
[--rotate-pages-threshold CONFIDENCE]
[--pdfa-image-compression {auto,jpeg,lossless}]
[--user-words FILE] [--user-patterns FILE]
[--fast-web-view MEGABYTES] [-k]
input_pdf_or_image output_pdf
Generates a searchable PDF or PDF/A from a regular PDF.
使用
- -l 表示語言 chi_sim 指定中文簡體
- 7s.pdf 爲源文件 output.pdf 爲輸出文件名
- sidecar 單獨把文字輸出
ocrmypdf -l chi_sim 7S.pdf output.pdf --sidecar 7s.txt
tesseract
直接使用如上命令可能會報錯,因爲他自身並不支持中文,工具底層還是使用tesseract 這個圖像識別工具。爲了支持各種語言,需要進一步安裝。
安裝所有的語言集。
brew install tesseract-lang
有興趣瞭解的附上github地址 tesseract