xml中的空格之完全解說

提示:我提取了《xslt從入門到精通》中關於空格解釋的核心部分,藉以拋磚引玉,希望大家踊躍參與討論。談談你對空格的理解。


只適合對xml文件結構有一定了解的學者,不適合初學者。請按從上至下的順序閱讀。



對html文件而言,空格不重要;然而,對xml而言,默認立場就是要保留空格結點(空格結點的解釋見下文)。



根據xml規範的規定,所謂空格是四種字符的任意組合序列:
-----------------------
空格字符(space),對應字符值爲 #x20
返回字符(Carriage Return),對應字符值爲 #xD
新行字符(Newline),對應字符值爲 #xA
跳格字符(Tab),對應字符值爲 #x9。



xml文件的空格也會形成結點,也就是空格結點。空格結點屬於文字結點類型。



對xml和xslt而言,空格結點會牽涉到兩個議題:
-----------------------
1。在xml輸入文件中決定哪些空格是重要的,xslt處理器要看見這些空格結點。而決定的密鑰就是xml:space屬性。
2。在xsl模板文件中決定哪些空格是重要的,xslt處理器應將它複製到結果樹中,而決定的密鑰就是xsl:strip-space
和xsl:preserve-space這兩個命令。



“重要和不重要的空格結點”
-----------------------
若某組件的內容只能放組件,則該組件中的空格結點就是不重要的(Insignificant);
如果某組件的內容是#PCDATA的類型,則其內的空格結點應視爲重要的(Signficant)。
至於組件內容混雜了文字內容和組件的情況則無從評判,應視組件及其內容之語意而定。



xslt處理器接觸到xml輸入文件之前,會先由xml分析器進行分析
-----------------------
(1)xml:space屬性可以改變後續接手的xml應用程序處理空格結點的模式,例如,xslt處理器就會受xml:space屬性影響。
(2)xml文件中任何一列標記或內容尾端的結尾的結尾符號全部會換成單一新行字符(#xA)。
(3)屬性值交給xml應用程序之前,xml分析器也應該先對屬性值做規範化的操作。這是因爲不同的操作系統每一行文字列
的結尾字符有不同的組合,例如,windows系統會由返回字符呵新行字符組成結尾符號,而Unix系統則僅由新行字符組
成結尾符號。xml分析器在讀取xml文件之後,便先行將所有結尾符號換成單一新行字符,不僅統一了不同系統間不同
結尾符號設計的差異性,同時也簡化了後續xml應用程序的的操作難度。這樣一個處理過程稱爲“規範化(Normalization)”。
a,每一文字列的結尾符號都要規範化成單一的新行字符(#xA)。
b,任何一個空格符(#x20、#xD、#xA、#x9)都應換成一個空格字符(#x20)。
c,屬性值中若含有字參碼,則應替換成該參考字符,例如,
會換成新行字符(#xA)。
d,屬性值若含有實體參考,則應以其替換文字替換。
e,除此之外,任何字符都應直接放入規範化屬性值中。
f,最後,如果屬性類型不是CDATA,則xml分析器應該再進一步把屬性值前後的空格字符序列刪除,而且屬性值中間
若有空格序列,也應該替換成單一空格字符。


xslt處理器把xml輸入文件和xsl模板文件的結構樹建好之後,會現把組件中相鄰的文字結點合併成單一的文字結點,然後再把
一些文字結點抽掉。然而,如果文字結點符合下列條件之一,就會被保留下來:
-----------------------
(1)文字結點的父組件是空格保留組件名稱集(Set Of Whitespace-preserving Element Names)中的一員。
(2)文字結點中至少有一個非空格符。
(3)文字結點的某個祖先組件中有xml:space屬性,其值爲preserve,而且較近的祖先組件中沒有其他xml:space屬性值爲default。
除此之外的文字結點逗會被抽掉。



對xsl模板而言,所謂的空格保留組件名稱集只有一個xsl:text組件可用。xsl模板文件的空格結點都會被刪除,但是,如果空格結
點出現在xsl:text組件中就會被保留下來。

 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章