PDF 文字識別

在實際工作生活中有時候需要參看pdf 文件寫ppt 等文件。但是如果此時PDF 是圖片格式那就沒有辦法去複製粘貼，這個時候需要把PDF 轉爲word 文檔，或者把字copy 出來。OCR 技術就可以解決這個問題。很多PDF 閱讀器其實內嵌了這種功能，但是都要付費。。。因爲窮…以及不服，這個時候就可以到全球最大同性交友網站github找輪子。

OCRmyPDF

pdf OCR 工具

字面意思就是掃描你的PDF 識別問題，轉換。

安裝

mac 下安裝非常方便，其他系統git上也有提供方式。

brew install ocrmypdf

依賴可以說非常多，安裝比較耗時。

安裝完查看是否成功

 guifeng.chen  /Users/guifeng.chen/Desktop   ocrmypdf -h                                                              19:54:10
usage: ocrmypdf [-h] [-l LANGUAGE] [--image-dpi DPI]
                [--output-type {pdfa,pdf,pdfa-1,pdfa-2,pdfa-3}]
                [--sidecar [FILE]] [--version] [-j N] [-q] [-v [VERBOSE]]
                [--title TITLE] [--author AUTHOR] [--subject SUBJECT]
                [--keywords KEYWORDS] [-r] [--remove-background] [-d] [-c]
                [-i] [--unpaper-args UNPAPER_ARGS] [--oversample DPI]
                [--remove-vectors] [--threshold] [-f] [-s] [--redo-ocr]
                [--skip-big MPixels] [-O {0,1,2,3}] [--jpeg-quality Q]
                [--png-quality Q] [--jbig2-lossy] [--pages PAGES]
                [--max-image-mpixels MPixels] [--tesseract-config CFG]
                [--tesseract-pagesegmode PSM] [--tesseract-oem MODE]
                [--pdf-renderer {auto,hocr,sandwich}]
                [--tesseract-timeout SECONDS]
                [--rotate-pages-threshold CONFIDENCE]
                [--pdfa-image-compression {auto,jpeg,lossless}]
                [--user-words FILE] [--user-patterns FILE]
                [--fast-web-view MEGABYTES] [-k]
                input_pdf_or_image output_pdf

Generates a searchable PDF or PDF/A from a regular PDF.

使用

-l 表示語言 chi_sim 指定中文簡體
7s.pdf 爲源文件 output.pdf 爲輸出文件名
sidecar 單獨把文字輸出

ocrmypdf -l chi_sim 7S.pdf output.pdf --sidecar 7s.txt

tesseract

直接使用如上命令可能會報錯，因爲他自身並不支持中文，工具底層還是使用tesseract 這個圖像識別工具。爲了支持各種語言，需要進一步安裝。

安裝所有的語言集。

brew install tesseract-lang

有興趣瞭解的附上github地址 tesseract

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

PDF 文字識別

PDF 文字識別

OCRmyPDF

安裝

使用

tesseract

C#開源的兩款功能強大的錄屏神器

認知提升的方法

螞蟻面試：Springcloud核心組件的底層原理，你知道多少？

golang hystrix 熔斷器

snowflaker 問題

CPU核數

snow flake

string rune byte 理解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結