PDF格式詳解

 PDF(Portable   Document   Format,便攜式文檔結構)是一種很有用的文件格式,其最大的特點是  
 平臺無關而且功能強大(支持文字/圖象/音樂/視頻).今天先講一下pdf的文件(物理)結構  

1. 文件結構


 PDF文件結構可分爲以下幾塊:  
1.header:
 pdf文件的第一行,格式如下:  
 %PDF-1.3  
 表示當前文件的版本是1.3(目前最高版本爲1.7)  
2.body:
 pdf文件中用到的所有對象,包括文本/圖象/音樂/視頻/字體/超連接/加密信息等等,格式如下:  
 2   0   obj  
 ...  
 end   obj  
 其中省略號部分是pdf規定的任意合法對象(一共8種)  
3.cross   reference   table:
 所有pdf對象的引用表,其格式如下:  
 xref  
 0   5  
 0000000000   65535   f  
 0000000009   00000   n  
 0000000074   00000   n  
 0000000120   00000   n  
 0000000179   00000   n  
 其中,xref是開始標誌,表示以下爲引用表內容;0   5表示從對象號爲0的開始,  
 連續有5個對象(0,1,2,3,4),分別用5行來表示.每行的前10個數字代表這個  
 這個對象相對文件頭的偏移地址,後面5個數字只有當這個對象被刪除的時  
 候纔有用,表示這個對象被刪除後又被重新生成後的對象號最後一位f或n表  
 示對象是否被使用(n表示使用,f表示被刪除或沒有用)  
4.trailer:
 整個pdf文件的入口點,形式如下:  
 trailer  
 <<  
 /Size   8  
 /Root   1   0   R  
 >>  
 startxref  
 553  
 %%EOF  
 /size   :這個pdf中總共使用了多少個對象  
 /root   :這個pdf文件的catalog對象的對象號,這是pdf中最頂層的對象  
 /startxref:   後面的數字表示cross   reference   table的開始位置  
 /%%EOF   :文件結束符.  
 實際一個pdf文件是很複雜的,但是上面幾個部分是確定的,只能多不能少.

2.數據類型

下一講我說一下pdf裏面8種類型.

1.booleam  
用關鍵字true或false表示,可以是array對象的一個元素,或dictionary對象的一個條目.

2.numeric  
包括×××和實型,不支持非十進制數字,不支持指數形式的數字.

例:  
1)整數 123 4567 +111 -2      
   範圍:正2的31次方-1到負的2的31次方  
2)實數 12.3 0.8 +6.3 -4.01 -3. +.03  
   範圍:±3.403 × 10的38次方     ±1.175 × 10的-38次方  
   注意:如果整數超過表示範圍將轉化成實數,如果實數超過範圍就出錯了  
3.string  
由一系列0-255之間的字節組成,一個string總長度不能超過65535.string有以下兩種方式:  
1)由()包含起來的一個字串,中間可以使用轉義符"/".  
  例:  
  (abc)  表示abc  
  (a//)  表示a/  
2)由<>包含起來的一個16進制串,兩位表示一個字符,不足兩位用0補齊  
  例:  
  <Aabb>  表示AA和BB兩個字符  
  <AAB>  表示AA和B0兩個字符  
4.name  
由一個前導/和後面一系列字符組成,最大長度爲127.和string不同的是,name是不可分割的  
和唯一的,不可分割就是說一個name對象就是一個原子,比如/name,不能說n就是這個name的  
一個元素;唯一就是指兩個相同的name一定代表同一個對象.從pdf1.2開始,除了ascii的0,別  
的都可以用一個#加兩個十六進制的數字表示.  
例:  
 /name  表示name  
 /name#20is 表示name is  
 /name#200 表示name 0  
5.array  
用[]包含的一組對象,可以是任何pdf對象(包括array).雖然pdf只支持一維array,但可以通過  
array的嵌套實現任意維數的array(但是一個array的元素不能超過8191)  
例:  
[549 3.14 false (Ralph) /SomeName]  
6.Dictionary  
用"<<"和">>"包含的若干組條目,每組條目都由key和value組成,其中key必須是name對象,並且  
一個dictionary內的key是唯一的;value可以是任何pdf的合法對象(包括dictionary對象).  
例:  
<< /IntegerItem 12  
/StringItem (a string)  
/Subdictionary << /Item1 0.4  
/Item2 true  
/LastItem (not!)  
/VeryLastItem (OK)  
>>  
>>  
7.stream  
由關鍵字stream和endstream包含一系列字節.內容和string很相似,但有區別:stream可以分幾次  
讀取,分開使用不同的部分,string必須作爲一個整體一次全部讀取使用;string有長度限制,但  
stream卻沒有這個限制.一般較大的數據都用stream表示.  
例:(略)  
8.NULL  
用null表示,代表空.如果一個key的值爲null,則這個key可以被忽略;如果引用一個不存在的  
object則等價於引用一個空對象.  
例:(略)

給大家說點有用的東西:爲什麼有的pdf不允許打印?  
 pdf有自己的加密措施,其中就有限制打印.  
 找到trailer,如果這個pdf是加密的話會有一個/Encrypt的name,他的值一般形式是n 0 R,表示這個pdf  
 文件的加密信息在n 0這個obj裏面記錄.找到這個obj,其下有一個/P的name,他的值是一個數字(32位)  
 其中第三位代表是否有打印權限:)


原文出處:http://blog.csdn.net/bobob/article/details/751381

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章