pdf結構分析

一、   簡單瞭解PDF
1   PDF格式
一個PDF文檔從根本上來說是一個8字節序列。 其實PDF格式和我們已經熟知的HTML,XML等結構化的文件格式一樣,包含有關鍵字,分隔符,數據等等。不同的是PDF文件是按照二進制流的方式保存的,而html文件則是可讀的文本方式保存的。

2   PDF規範的發展
PDF規範的6次升級:

1.11995 加入了文檔加密(40字節),線索樹,名字樹,鏈接,設備獨立色彩資源。

1.21996 表單, 半色調屏幕,和其他的一些高級色彩特性, 對中文,日文和韓文的支持

1.32000 數字簽名, 邏輯結構, JavaScript, 嵌入式文件,Masked Images, 平滑陰影, 支持 CID字體的附加色彩。

1.42001 文件加密 (128 字節), 標籤式 PDF, 訪問控制,透明,元數據流

1.52003 文檔加密 (公鑰), JPEG 2000 壓縮,可選的內容組,附加的註解類型

1.62005 文檔加密 (AES),增加最大文件支持,加入3D支持,額外的註解類型

3   PDF文件的基本組成
這四部分分別爲:

l  文件頭,指明瞭該文件所遵從的PDF規範的版本號,它出現在PDF文件的第一行。

l         文件體,PDF文件的主要部分,由一系列對象組成。

l         交叉引用表,爲了能對間接對象進行隨機存取而設立的一個間接對象的地址索引表。

l         文件尾,聲明瞭交叉引用表的地址,即指明瞭文件體的根對象(Catalog),從而能夠找到PDF文件中各個對象體的位置,達到隨機訪問。另外還保存了PDF文件的加密等安全信息

4   PDF文檔的邏輯結構PDF
文件尾(Trailer),說明根對象的對象號,並且說明交叉引用表的位置,通過對交叉引用表的查詢可以找到目錄對象(Catalog)。這個目錄對象是該PDF文檔的根對象,包含PDF文檔的大綱(outline)和頁面組對象(pages)引用。大綱對象是指PDF文件的書籤樹;頁面組對

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章