各種電子圖書館文章(PDF、PDG、CAJ)轉爲Word文檔的方法

各種識別軟件對電子圖書館文章的識別各有缺陷,有的只能識別字,對錶格和圖形無能爲力;有的識別後生成的版面亂七八糟,無 法使用。還在爲不同格式的文件怎麼變成Word文件發愁嗎?現在好了,本文給出了所有情況下全文件表格、圖形、文字識別的完美解決方案,幫助大家掌握正確 方法,節省時間:
  1、PDF文件的識別
  1)文件可以直接識別的(以文本形式保存的PDF文件):安裝acrobat 7專業版,注意不是acrobat reader,直接另存爲rtf文件(識別整個文件),或者選擇工具欄上的文字選擇按鈕,然後選擇文字區域,然後複製到Word等中。
  2)文件不能直接識別的(以圖片形式保存的PDF文件):安裝office2003,並裝上office工具 Microsoft Office Document Imaging(完全安裝此工具),然後在打印機裏面會增加Microsoft Office Document Image Writer打印機,然後將PDF文件打印到此打印機,選擇打印形成的文件的保存位置,然後會自動形成一個MDI文件,並且自動用Microsoft Office Document Image打開此文件,然後選擇“工具”菜單下的“使用ocr識別文本”,識別完成後,在選擇“工具”下的,“將文本發送到Word”,最後將把整個 PDF文件識別輸出到Word文件中。
  注意:Microsoft Office Document Image可以非常準確的全文件識別轉化中文、英文、表格,但是無法將圖形輸出到Word,而是把文件中的所有圖形單獨形成一個個獨立的圖片文件,放在相 同位置的一個相同名稱的文件夾中,因此可用snagit軟件將圖形打開,然後複製到Word中。(所有的識別軟件都不能很好的處理圖形的識別問 題,Microsoft Office Document Image的這種處理方法已經是非常好的解決這個問題了。)
  3)加密的Pdf文件:先下載解密軟件,解密後在參看1),2)
  4)繁體pdf文件:用2)的方法識別到Word後,用Word中的“工具”--“語言”---“中文繁簡轉換”
  2、caj文件的識別:
  1)局部文字識別:直接使用caj瀏覽器的ocr
  2)全文件識別:打印到Microsoft Office Document Image Writer打印機,後面和上面的2)操作一樣
  3)博碩論文全文下載:在線閱讀博碩論文,待可以看到最後一頁後,不要關閉caj瀏覽器,到caj安裝目錄下cache中找到一個較大的文件,拷貝到其他位置即可。然後使用2)全部轉化爲Word。
  3、超星文件的識別:
  1)局部文字識別:直接使用超星瀏覽器的ocr
  2)全文件識別:打印到Microsoft Office Document Image Writer打印機,後面和上面的2)操作一樣,要注意的是,超星打印功能有點區別,因爲超星是目錄和全文分開的,所以打印時,需要分別把目錄和正文識別 到Word中,在合併到一起。打印時要填入打印頁碼從1到最後一頁,不要選擇打印全部。此外在打印選項中,還要將頁面比例設成真實大小,而不是整寬。注 意:識別速度比其他格式要慢很多,請保持耐心,但是最後當你看到輕鬆的生成全本書的Word版本時,你會欣喜若狂的,呵呵。我的試驗結果是一本280頁的 書,識別需要幾分鐘的時間。
  3)超星相對比較麻煩一些,如果還有問題,可以先把超星打印成完整的pdf文件,然後在用1、的方法轉成Word
  4、其他情況下的識別:
  使用snagit軟件將任何形式的文字可以變成圖片,例如使用snagit將屏幕拷貝成圖片,然後右鍵點擊圖片文件,用microsoft Office Document Image打開圖形,其他和2)一樣。
  注意:其他的各種識別軟件請不要在用,因爲要麼只能識別中文,要麼只能識別英文,要麼不能識別整個文件,要麼不 能識別屏幕拷貝圖像,要麼識別誤差很大,要麼不能識別表格,要麼需要註冊,要麼識別速度很慢,要麼使用不便(和Word結合不緊),這些軟件包括:紫光 ocr,萬方pdfocr,尚書,漢王,ScanSoft PDF Converter,pdf2Word,以及各種被推薦的軟件等等,我都裝過,現在都像LJ一樣刪除了。只要安裝了acrobat 專業版,snagit,office2003,現在你可以完美的做任何事,最重要的是這幾個軟件很好得到。
  針對一些問題的補充:
  經過一些試驗,發現microsoft Office Document Image 存在一些不穩定的問題,例如在用caj打印到Microsoft Office Document Image Writer打印機時,發現用caj5.5版本比較快,(caj5.5不能加升級補丁),而caj5.0有時出現假死機。
  另外頁面顯示大時,轉化的識別率較高。
  如果頁數多的文件,包括超星,如果有問題,可以分多次轉化。
  再次補充:
  1、由於虛擬打印到Microsoft Office Document Image Writer 比較慢,並且形成的虛擬文件很大,1本200多頁的書大約是60M,因此會嚴重影響機器的運行速度和C盤空間以及內存空間,建議配置好的機器一次轉化不要 超過200頁,配置差的不要超過100頁,同時打印時在右下角系統欄中會出現打印機圖,你可以雙擊,看到打印任務的進度,以免以爲死機了。另外轉化完成後 請刪除c:\windows\temp目錄下的虛擬打印文件,否則你的c盤很快會被用光。
  2、建議如果發生打印到Microsoft Office Document Image Writer很慢或者假死的情況,可以先打印到snagit虛擬打印機,會自動生成tiff文件,速度比Microsoft Office Document Image Writer快,然後在snagit中,選擇打印機爲Microsoft Office Document Image Writer打印機,(相當於再打印到Microsoft Office Document Image Writer打印機),然後選擇snagit---outputs下的printer,然後選擇snagit----file----finish output,即可生成msi文件,其他一樣。轉化完成後請刪除c:\windows\systems32\snagit臨時文件。
 
個人補充:
下面是我使用的經驗
方法一:(目前超星新書好像已經封了虛擬的功能,採用此法可以,但速度慢得難以忍受)
1。Fineprint Pdffactory Pro 軟件一個(各大網站均有下載)
2。點擊欲改PDF的超星或CAJ文件打開閱覽(超星圖書最好打開封面頁cov001.pdg),點擊"打印",出 現的對話框中打印頁數應填整本圖書的頁數(包括封面頁、前言頁、目錄頁、正文頁等,可用ctrl+A查看全部頁數),點擊"確定",選 中"Fineprint Pdffactory Pro "打印。
3。這樣打印出來的PDF書中全部包括了封面頁、前言頁、目錄頁、正文頁等,也 不需要用什麼軟件合併,那樣太麻煩。不過轉化後的書應"另存爲"某一路徑中,否則只有到C:\Documents and Settings\*\My Documents\PDF files\AutoSave中去找了。
方法二:(針對超星可以虛擬打印的書籍,速度超快)
1:直接添加打印機,然後選擇一款後面帶有PS的打印機,最好選擇彩色打印機,比如:HP Color LaserJet 8550-PS,這樣就可以打印彩色書籍了,端口只要選擇不衝突就行,一路下一步安裝結束,就可以使用了
2:打印時選擇打印到文件,這時需要輸入文件名,自己連路徑一起輸入,擴展名直接用ps就行,如果沒有路徑打印出來的文件就在超星的history文件中。
3:然後就可以使用Acrobat Distiller(Adobe Acrobat Professional自帶有此軟件)轉換成PDF文件,速度比其它虛擬打印機快很多


[url]http://lm2000i.bokee.com/viewdiary.15448178.html[/url]
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章