PDF文件格式研究

随着电子 出版物的日益丰富和因特网的快速普及,人们可以很方便地获得大量的、各学科的电子 资料。在这些资料中,特别是各政府机关、学术机构、标准组织和各大公司在网上发行的各种资料与产品手册,有愈来愈多的在使用ADOBE公司开发并大力推广的PDF格式。
  一、文件格式
  目前主流的电子 图书格式还没有统一的电子 图书文件格式,不同的公司因版权或商业因素等诸多原因,往往各行其事,采用不同的文件格式,其中最常用的有以下几种:
  PDF格式:PDF格式是ADOBE公司推出的电子 图书专用格式,它无论在何种机器、何种操作系统 上都能以制作者所希望的形式显示或打印出来,表现出跨平台的一致性,效果非常理想。它是目前比较先进的一种电子 图书格式,应用非常广泛。
  WDL格式:WDL格式采用图文混排方式,一个文件就是一本电子 图书,阅读、携带都很方便,更重要的是WDL格式对中文的支持非常好,其应用范围也非常广泛。
  HTML(超文本格式):HTML的特点就是显示效果好、表现力强、文件比较紧凑,不会占用太多磁盘空间。另外,HTML的兼容性非常好,我们只要是安装了Windows9X/2000即可阅读HTML文档。
  图像格式:用户必须借助于图形浏览软件 或专门的图形方式阅读软件 才能进行阅读。它有一个明显的缺点,就是文件体积比较大,这导致下载、阅读速度都很慢,显示效果也不太理想。
  可执行文件格式:部分电子 图书采用了可执行文件格式,我们必须执行它们附带的应用程序才能进行阅读。此种格式的文件占用的磁盘空间非常巨大,往往不适合在Internet上传输,而只能采用光盘形式。
  文本文 件格式 :除了上面介绍的几种文件格式外,还有部分电子 图书采用了最原始的文本文 件格式,它的显示效果虽然最差,但文件的“块头”无疑最小,在网络速度不是太快的今天,可以为读者节省更多的时间。
  二、PDF文件格式
  PDF从页面描述语言PS(Post Script)发展而来,具有与PS几乎相同的页面描述能力 和相似的描述方法。但与PS不同的是,PDF除了能描述复杂版面外,还具有交互功能(如超链接、交互表单等)、页面随机存取及字体仿真描述等特性。因此,PDF不仅适合印刷出版,而且也适合电子 出版。
  (一)PDF的结构
  1.PDF文件结构。PDF文档是通过一系列对象序列来构造的,PDF对象包括直接对象(Direct Object)和间接对象(Indirect Object)。一个典型的PDF文件包含4个部分,分别是文件头、文件体、交叉引用表、文件尾。
   2.   PDF文档结构。PDF的文档结构是一种树型结构(如图1所示)。树的根节点就是PDF文件的根对象。根节点下有四个子树:页面树 (PagesTree)、书签树(OutlineTree)、线索树(Article Thread)、名字树(Named Destination)。书签建立了书签名与一个具体页面上的位置的关联,它使得用户可以按书签名字来访问文档的内容。

 
 
 
 
 
图1 PDF文档结构
  (二)PDF的特点
  1. PDF的技术 特点。PDF文件由文件底层数据层、文本图像数据层、附属信息 数据层等构成。底层数据层包括字体信息 、交叉参考表(简称xref)等所有的控制信息 。文本图像数据层包括文件中的所有文本代码、矢量图形和位图数据。附属信息 数据层包括文件书签和文件或页面链接等所有的功能扩展数据。
  2. PDF的应用特点。多平台特性、超媒体特性、多媒体 表达手段文件小,阅读方便,打印效果好。
   3. PDF文件的生成。目前PDF的生成有两种途径:(1)通过打印的方式生成PDF,就是通过一个虚拟的PDF打印机将应用程序的文字和图形指令转换为 PDF指令并保存在PDF文件中。(2)由PS转换到PDF是另一种生成PDF的方法,它是由应用程序先将待打印的内容发排到PS文件,再由Adobe Acrobat Distiller将PS文件转换成PDF文件。
  三、系统 基本功能需求
  PDF阅读器系统 应当能够准确的阅读PDF格式文件。同时系统 能对PDF格式文件进行管理系统 能够提供阅读、翻页、选择文本、选择图片、放大缩小、复制、粘贴、书签、注释等一些基本的功能。
  (一)用户界面需求
  PDF阅读器系统 的界面应当具有WINDOWS风格,界面简单大方,操作简便快捷,稳定性好,并能为用户的操作提供方便。
  (二)系统 性能需求
  由于PDF阅读器系统 ,是供用户来阅读PDF文件的。因此,系统 应该具有很好的灵活性,使用户能够很方便的对打开的PDF文件进行操作。
  (三)系统 的可扩展性
  系统 应该留出足够的空间方便以后添加控制项,对文件进行控制、处理、存储等操作。也就是说,在不影响用户使用该系统 的情况下,能够方便的添加一些新的功能。将来的系统 应该更为成熟,功能更加完善。该系统 应该具有友好的用户界面,能够提供较多的管理 显示功能。
  (四)系统 的安全性
  PDF文档可以从未授权入口通过加密来保护它们的内容,也就是说PDF文件可以长期保存文件而防止文件数据的丢失。
  (五)PDF生成器
  PDF阅读器能够正确的阅读PDF格式的文本、图片等,并且能够对PDF文件进行管理 。此PDF生成器分别实现文本文 件即TXT文件转换为PDF文件和图片文件如JPG,GIF,TIFF等转换为PDF文件。在转换之前,可以根据需要对文本文 件和图片文件进行设置。设置功能包括内容设置和页面设置。其中内容设置有顶部、底部、左侧、右侧的设置,页面设置有页面大小、打开方式、打开模式、全屏效果和是否打开Adobe Acrobat等的设置。
  四、结语
  PDF文件是目前比较先进的一种电子 图 书格式,应用非常广泛。由于用Adobe免费的PDF阅读器(AcrobatReader)阅读中文PDF时只能显示TureType中文字体,且无法实 现平台独立和字体独立;又不支持中文字体的下载这两个问题。其解决的最好办法就是开发中文PDF阅读器。实现PDF检索系统 ,从PDF中提取信息 ,在其他应用程序中支持PDF的输入和阅读。

参考文献
  [1]官章全,韩云君,李罡. Visual C++6.0高级编程范例[M]. 北京:电子 工业出版社,2001.
  [2]侯俊杰.深入浅出MFC [M].武汉:华中科技大学出版社,2000.
  [3]扬伟.常用电子 图书格式和阅读工具的分析研究[J].电子 科技大学图书馆,2001.
  [4]邓华,毛岩,吉正. Visual C++案例教程[M].北京:中科多媒体 电子 出版社,2001.
  [5]张海潘.软件 工程导论(第三版)[M].北京:清华大学出版社,2001.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章