PDF文件格式研究

隨着電子 出版物的日益豐富和因特網的快速普及,人們可以很方便地獲得大量的、各學科的電子 資料。在這些資料中,特別是各政府機關、學術機構、標準組織和各大公司在網上發行的各種資料與產品手冊,有愈來愈多的在使用ADOBE公司開發並大力推廣的PDF格式。
  一、文件格式
  目前主流的電子 圖書格式還沒有統一的電子 圖書文件格式,不同的公司因版權或商業因素等諸多原因,往往各行其事,採用不同的文件格式,其中最常用的有以下幾種:
  PDF格式:PDF格式是ADOBE公司推出的電子 圖書專用格式,它無論在何種機器、何種操作系統 上都能以製作者所希望的形式顯示或打印出來,表現出跨平臺的一致性,效果非常理想。它是目前比較先進的一種電子 圖書格式,應用非常廣泛。
  WDL格式:WDL格式採用圖文混排方式,一個文件就是一本電子 圖書,閱讀、攜帶都很方便,更重要的是WDL格式對中文的支持非常好,其應用範圍也非常廣泛。
  HTML(超文本格式):HTML的特點就是顯示效果好、表現力強、文件比較緊湊,不會佔用太多磁盤空間。另外,HTML的兼容性非常好,我們只要是安裝了Windows9X/2000即可閱讀HTML文檔。
  圖像格式:用戶必須藉助於圖形瀏覽軟件 或專門的圖形方式閱讀軟件 才能進行閱讀。它有一個明顯的缺點,就是文件體積比較大,這導致下載、閱讀速度都很慢,顯示效果也不太理想。
  可執行文件格式:部分電子 圖書採用了可執行文件格式,我們必須執行它們附帶的應用程序才能進行閱讀。此種格式的文件佔用的磁盤空間非常巨大,往往不適合在Internet上傳輸,而只能採用光盤形式。
  文本文 件格式 :除了上面介紹的幾種文件格式外,還有部分電子 圖書採用了最原始的文本文 件格式,它的顯示效果雖然最差,但文件的“塊頭”無疑最小,在網絡速度不是太快的今天,可以爲讀者節省更多的時間。
  二、PDF文件格式
  PDF從頁面描述語言PS(Post Script)發展而來,具有與PS幾乎相同的頁面描述能力 和相似的描述方法。但與PS不同的是,PDF除了能描述複雜版面外,還具有交互功能(如超鏈接、交互表單等)、頁面隨機存取及字體仿真描述等特性。因此,PDF不僅適合印刷出版,而且也適合電子 出版。
  (一)PDF的結構
  1.PDF文件結構。PDF文檔是通過一系列對象序列來構造的,PDF對象包括直接對象(Direct Object)和間接對象(Indirect Object)。一個典型的PDF文件包含4個部分,分別是文件頭、文件體、交叉引用表、文件尾。
   2.   PDF文檔結構。PDF的文檔結構是一種樹型結構(如圖1所示)。樹的根節點就是PDF文件的根對象。根節點下有四個子樹:頁面樹 (PagesTree)、書籤樹(OutlineTree)、線索樹(Article Thread)、名字樹(Named Destination)。書籤建立了書籤名與一個具體頁面上的位置的關聯,它使得用戶可以按書籤名字來訪問文檔的內容。

 
 
 
 
 
圖1 PDF文檔結構
  (二)PDF的特點
  1. PDF的技術 特點。PDF文件由文件底層數據層、文本圖像數據層、附屬信息 數據層等構成。底層數據層包括字體信息 、交叉參考表(簡稱xref)等所有的控制信息 。文本圖像數據層包括文件中的所有文本代碼、矢量圖形和位圖數據。附屬信息 數據層包括文件書籤和文件或頁面鏈接等所有的功能擴展數據。
  2. PDF的應用特點。多平臺特性、超媒體特性、多媒體 表達手段文件小,閱讀方便,打印效果好。
   3. PDF文件的生成。目前PDF的生成有兩種途徑:(1)通過打印的方式生成PDF,就是通過一個虛擬的PDF打印機將應用程序的文字和圖形指令轉換爲 PDF指令並保存在PDF文件中。(2)由PS轉換到PDF是另一種生成PDF的方法,它是由應用程序先將待打印的內容發排到PS文件,再由Adobe Acrobat Distiller將PS文件轉換成PDF文件。
  三、系統 基本功能需求
  PDF閱讀器系統 應當能夠準確的閱讀PDF格式文件。同時系統 能對PDF格式文件進行管理系統 能夠提供閱讀、翻頁、選擇文本、選擇圖片、放大縮小、複製、粘貼、書籤、註釋等一些基本的功能。
  (一)用戶界面需求
  PDF閱讀器系統 的界面應當具有WINDOWS風格,界面簡單大方,操作簡便快捷,穩定性好,並能爲用戶的操作提供方便。
  (二)系統 性能需求
  由於PDF閱讀器系統 ,是供用戶來閱讀PDF文件的。因此,系統 應該具有很好的靈活性,使用戶能夠很方便的對打開的PDF文件進行操作。
  (三)系統 的可擴展性
  系統 應該留出足夠的空間方便以後添加控制項,對文件進行控制、處理、存儲等操作。也就是說,在不影響用戶使用該系統 的情況下,能夠方便的添加一些新的功能。將來的系統 應該更爲成熟,功能更加完善。該系統 應該具有友好的用戶界面,能夠提供較多的管理 顯示功能。
  (四)系統 的安全性
  PDF文檔可以從未授權入口通過加密來保護它們的內容,也就是說PDF文件可以長期保存文件而防止文件數據的丟失。
  (五)PDF生成器
  PDF閱讀器能夠正確的閱讀PDF格式的文本、圖片等,並且能夠對PDF文件進行管理 。此PDF生成器分別實現文本文 件即TXT文件轉換爲PDF文件和圖片文件如JPG,GIF,TIFF等轉換爲PDF文件。在轉換之前,可以根據需要對文本文 件和圖片文件進行設置。設置功能包括內容設置和頁面設置。其中內容設置有頂部、底部、左側、右側的設置,頁面設置有頁面大小、打開方式、打開模式、全屏效果和是否打開Adobe Acrobat等的設置。
  四、結語
  PDF文件是目前比較先進的一種電子 圖 書格式,應用非常廣泛。由於用Adobe免費的PDF閱讀器(AcrobatReader)閱讀中文PDF時只能顯示TureType中文字體,且無法實 現平臺獨立和字體獨立;又不支持中文字體的下載這兩個問題。其解決的最好辦法就是開發中文PDF閱讀器。實現PDF檢索系統 ,從PDF中提取信息 ,在其他應用程序中支持PDF的輸入和閱讀。

參考文獻
  [1]官章全,韓雲君,李罡. Visual C++6.0高級編程範例[M]. 北京:電子 工業出版社,2001.
  [2]侯俊傑.深入淺出MFC [M].武漢:華中科技大學出版社,2000.
  [3]揚偉.常用電子 圖書格式和閱讀工具的分析研究[J].電子 科技大學圖書館,2001.
  [4]鄧華,毛巖,吉正. Visual C++案例教程[M].北京:中科多媒體 電子 出版社,2001.
  [5]張海潘.軟件 工程導論(第三版)[M].北京:清華大學出版社,2001.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章