PDF目錄的自動生成

背景:之前利用爬蟲爬了一堆電子書的圖片,所以這次想把他們合併一下做成PDF,然後再添加上目錄。

步驟:

1、圖片轉PDF工具

這一步很簡單,網上有很多在線處理PDF的網站。比如:

speedpdf:這個網站上有很多功能,JPG to PDF Converter是免費的而且沒有水印,JPG to Word Converter需要升級成會員才能用,所以後面需要OCR的時候,不得不換別的工具了。

pdfdo:這個也不錯,加密解密的功能效果比較好。

smallpdf:這個也挺好,隨便挑一個試試吧。

不想上傳圖片到別人網站上去的話,可以試試離線的軟件:

FreePic2Pdf:知乎上有這個軟件的下載鏈接(如何用FreePic2Pdf和PdgCntEditor製作目錄

2、添加目錄

上面那篇知乎的文章正是我用來參考製作目錄的,不過裏面推薦的一篇CSDN博客需要VIP,對於我這樣天天啃樹皮的人肯定不會去買VIP啦,所以只能根據提供的軟件自己來DIY了。

主要用到的工具是PdgCntEditor。這個軟件上面也有提供鏈接,而且網上也很容易搜到,關鍵是軟件的用法不是很容易找到。簡單來說主要分爲三步:

1)用PdgCntEditor打開上面生成的PDF,因爲目前pdf還不帶目錄,所以打開操作看上去什麼反應都沒有。注意軟件底部的狀態欄,如果顯示了打開的pdf文件路徑就說明打開成功了。

2)將目錄複製到軟件中的那塊空白區域。目錄可以根據書名在網上去找,一般百度百科、豆瓣、淘寶上很容易找到。注意這裏的目錄最好是帶頁碼的。如果不帶頁碼的話,可以複製出來後在PdgCntEditor上編輯添加頁碼,也可以利用OCR識別電子書裏面自帶的目錄,這個一般都是有頁碼的。識別的方法很簡單,用截圖軟件把目錄部分截圖,然後OCR識別一下。如果電子書裏也沒有目錄並且網上也找不到的話,那就參照網上的那些目錄自己做一個吧。

OCR文字識別的功能網上也有很多在線免費的,上面提到的在線處理PDF網站上就有,不過有的效果不好,有的識別不了頁碼,還有的需要收費。可以先試試看,只要能識別出帶頁碼的目錄就行。這裏還提供一個網站(迅捷PDF轉換器),我在做目錄的時候用這個網站的識別效果還可以。注意選默認的docx轉換格式,txt格式有可能導致頁碼不識別,doc格式沒試過,應該跟docx差不多。

3)最重要的是第三步了,首先全選軟件中的目錄,點擊“選定區域自動縮進”()進行各個章節的識別,識別錯的可以手動調整一下。然後點擊“自動切分頁碼”(),沒有切分出來的頁碼可以手動添加tab製表符。最後是對齊頁碼,點擊“pdf目錄選項”(),調整基準頁的數值,就是看看目錄上的第一頁對應的是pdf裏面的第幾頁,因爲pdf裏面的封面、前言之類的是會佔頁數的,需要去掉。

最後保存一下就歐啦,注意保存的時候要在其他pdf閱讀器裏關掉這個正在添加目錄的pdf。

總結:整個方法很簡單,其中核心步驟是用PdgCntEditor自動識別目錄的那部分。我在編輯目錄的時候是直接在軟件裏編輯的,其實還可以用文本編輯器(notepad或者word),藉助字符替換之類的功能可以做得更好,這部分可以看下面的參考文章。

參考文章:

如何用FreePic2Pdf和PdgCntEditor製作目錄

PDF 能一鍵生成書籤,PdgCntEditor瞭解一下~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章