PDF 文字識別

PDF 文字識別

在實際工作生活中有時候需要參看pdf 文件寫ppt 等文件。但是如果此時PDF 是圖片格式那就沒有辦法去複製粘貼,這個時候需要把PDF 轉爲word 文檔,或者把字copy 出來。OCR 技術就可以解決這個問題。很多PDF 閱讀器其實內嵌了這種功能,但是都要付費。。。因爲窮…以及不服,這個時候就可以到全球最大同性交友網站github找輪子。

OCRmyPDF

pdf OCR 工具

字面意思就是掃描你的PDF 識別問題,轉換。

安裝

mac 下安裝非常方便,其他系統git上也有提供方式。

brew install ocrmypdf

依賴可以說非常多,安裝比較耗時。

安裝完查看是否成功

 guifeng.chen  /Users/guifeng.chen/Desktop   ocrmypdf -h                                                              19:54:10
usage: ocrmypdf [-h] [-l LANGUAGE] [--image-dpi DPI]
                [--output-type {pdfa,pdf,pdfa-1,pdfa-2,pdfa-3}]
                [--sidecar [FILE]] [--version] [-j N] [-q] [-v [VERBOSE]]
                [--title TITLE] [--author AUTHOR] [--subject SUBJECT]
                [--keywords KEYWORDS] [-r] [--remove-background] [-d] [-c]
                [-i] [--unpaper-args UNPAPER_ARGS] [--oversample DPI]
                [--remove-vectors] [--threshold] [-f] [-s] [--redo-ocr]
                [--skip-big MPixels] [-O {0,1,2,3}] [--jpeg-quality Q]
                [--png-quality Q] [--jbig2-lossy] [--pages PAGES]
                [--max-image-mpixels MPixels] [--tesseract-config CFG]
                [--tesseract-pagesegmode PSM] [--tesseract-oem MODE]
                [--pdf-renderer {auto,hocr,sandwich}]
                [--tesseract-timeout SECONDS]
                [--rotate-pages-threshold CONFIDENCE]
                [--pdfa-image-compression {auto,jpeg,lossless}]
                [--user-words FILE] [--user-patterns FILE]
                [--fast-web-view MEGABYTES] [-k]
                input_pdf_or_image output_pdf

Generates a searchable PDF or PDF/A from a regular PDF.

使用

  • -l 表示語言 chi_sim 指定中文簡體
  • 7s.pdf 爲源文件 output.pdf 爲輸出文件名
  • sidecar 單獨把文字輸出
ocrmypdf -l chi_sim 7S.pdf output.pdf --sidecar 7s.txt

tesseract

直接使用如上命令可能會報錯,因爲他自身並不支持中文,工具底層還是使用tesseract 這個圖像識別工具。爲了支持各種語言,需要進一步安裝。

安裝所有的語言集。

brew install tesseract-lang

有興趣瞭解的附上github地址 tesseract

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章