我們先用Adobe reader或者Adobeacrobat Pro軟件打開我們會出現亂碼的PDF文件,
然後,菜單欄,文件--------屬性--------字體項我們可以看到是不是文件內嵌了很多字體。
我們這裏找了一個文件爲例:
的時候是先讀取內嵌的字體,如果內嵌的字體沒有,那麼再讀取你係統中的字體來顯示,然而WORD
文件是直接讀取系統中的字體的,那麼如果你PDF文件中內嵌的某個或者某些字體在你的操作系統中
沒有,那麼轉換出來的word文件一般都會出現亂碼。
2. 2
3. 3
知道了轉換後爲什麼會出現亂碼以後, 現在我們找一個轉換軟件來測試轉換結果,這裏我們用AnyBizSoft PDF Converter 2.5測試。
轉換完畢後我們打開得到的word文件看看會不會是亂碼?
我截取了其中一個典型的頁面,大家可以看看和PDF原文的對比,轉換成word後是一堆亂碼。
4. 4
5. 5
6. 6
接下來我們換一個轉換軟件,我們使用Solid Converter PDF 6 / 7軟件。
這款轉換軟件是灰常強大的一個PDF轉換軟件,轉換效果很好,而且版面也保持的很好。而且在以前
轉換的使用過程中發現這個軟件可以自動替換一部分PDF內嵌的字體,從而達到解決一些轉換文件的
亂碼問題,但是這個軟件不是能夠解決所有的亂碼問題,有時候轉換出來的還會是亂碼。
比較驚喜的發現,用這個軟件轉換出來的雖然沒有原文那樣整齊,但是確實已經不是亂碼了。
如果你用這個軟件處理出來不是亂碼了,那麼我們的目的就達到了,如果用這個軟件轉換出來還是亂碼
那麼我們接着往下看。
7. 7
8. 8
如果SolidConverter PDF
搞不定的話, 那麼我們就只能用ABBYY finereader 這個軟件對這個PDF進行OCR識別處理了。
軟件界面的設置如下圖:
轉換的過程:
如果中間出現錯誤什麼的,會有提示的。
轉換完畢後我們打開轉換好的WORD,截圖,大家看效果:
效果還是相當不錯的~~~ 亂碼解決了~~~ 效果甚至比Solid Converter PDF還好。
總結:ABBYY finereader 幾乎可以解決所有PDF轉WORD亂碼的問題,只要文件清晰度可以的話。OCR識別軟件市面上有很多很多,但是ABBYY finereader的混合識別能力和版面的保持能力是我見過的最好的~~~~所以推薦個大家~~
· OCR識別存在着一定的錯誤率,這個和被識別文件的清晰度,分辨率有關係,文件分辨率高,清晰度好,準確率就高,反之,準確率就低,大家用ABBYY finereader轉換以後切記要和PDF原文內容校覈一遍。
· 我曾經遇到過PDF單詞表,帶有音標的,不管用什麼軟件轉換,其他內容都是正確的,但是音標部分始終是亂碼,遇上這種情況請你下載金山音標字體安裝到你的操作系統中,然後你再重新轉換一遍那個PDF文件即可完美解決。