關於XML

 XML是eXtensible Markup Language的縮寫。擴展標記語言XML是一種簡單的數據存儲語言,使用一系列簡單的標記描述數據,而這些標記可以用方便的方式建立,雖然XML佔用的空間比二進制數據要佔用更多的空間,但XML極其簡單易於掌握和使用。

    XML與Access,Oracle和SQL Server等數據庫不同,數據庫提供了更強有力的數據存儲和分析能力,例如:數據索引、排序、查找、相關一致性等,XML僅僅是展示數據。事實上XML與其他數據表現形式最大的不同是:他極其簡單。這是一個看上去有點瑣細的優點,但正是這點使XML與衆不同。

    XML的簡單使其易於在任何應用程序中讀寫數據,這使XML很快成爲數據交換的唯一公共語言,雖然不同的應用軟件也支持其它的數據交換格式,但不久之後他們都將支持XML,那就意味着程序可以更容易的與Windows、Mac OS, Linux以及其他平臺下產生的信息結合,然後可以很容易加載XML數據到程序中並分析他,並以XML格式輸出結果。

    XML的前身是SGML(The Standard Generalized Markup Language),是自IBM從60年代就開始發展的GML(Generalized Markup Language)

    同HTML一樣, XML (可擴展標識語言)是通用標識語言標準(SGML)的一個子集,它是描述網絡上的數據內容和結構的標準。儘管如此,XML不象HTML,HTML僅僅提供了在頁面上顯示信息的通用方法(沒有上下文相關和動態功能) ,XML則對數據賦予上下文相關功能,它繼承了SGML的大部分功能,卻使用了不太複雜的技術。。

    爲了使得SGML顯得用戶友好,XML重新定義了SGML的一些內部值和參數,去掉了大量的很少用到的功能,這些繁雜的功能使得SGML在設計網站時顯得複雜化。XML保留了SGML的結構化功能,這樣就使得網站設計者可以定義自己的文檔類型,XML同時也推出一種新型文檔類型,使得開發者也可以不必定義文檔類型。

    因爲XML是W3C制定的,XML的標準化工作由W3C的XML工作組負責,該小組成員由來自各個地方和行業的專家組成,他們通過email交流對XML標準的意見,並提出自己的看法 (www.w3.org/TR/WD-xml)。因爲XML 是個公共格式, (它不專屬於任何一家公司),你不必擔心XML技術會成爲少數公司的盈利工具,XML不是一個依附於特定瀏覽器的語言

    XML(可擴展標記語言)是從稱爲SGML(標準通用標記語言)的更加古老的語言派生出來的。SGML的主要目的是定義使用標籤來表示數據的標記語言的語法。

    標籤由包圍在一個小於號(<)和一個大於號(>)之間的文本組成,例如<tag>.起始標籤(start tag)表示一個特定區域的開始,例如<start>;結束標籤(end tag)定義了一個區域的結束,除了在小於號之後緊跟着一個斜線(/)外,和起始標籤基本一樣,例如</end>.SGML還定義了標籤的特性(attribute),它們是定義在小於號和大於號之間的值,例如<img src="picture.jpg">中的src特性。如果你覺得它看起來很熟悉的話,應該知道,基於SGML的語言的最著名實現就是原始的HTML.

    SGML常用來定義針對HTML的文檔類型定義(DTD),同時它也常用於編寫XML的DTD.SGML的問題就在於,它允許出現一些奇怪的語法,這讓創建HTML的解析器成爲一個大難題:

    1  某些起始標籤不允許出現結束標籤,例如HTML中<img>標籤。包含了結束標籤就會出現錯誤。

    2  某些起始標籤可以選擇性出現結束標籤或者隱含了結束標籤,例如HTML中<p>標籤,當出現另一個<p>標籤或者某些其他標籤時,便假設在這之前有一個結束標籤。

    3  某些起始標籤要求必須出現結束標籤,例如HTML中<script>標籤。

    4  標籤可以以任何順序嵌套。即使結束標籤不按照起始標籤的逆序出現也是允許的,例如,<b>This is a <i> sample </b> string</i>是正確的。

    5  某些特性要求必須包含值,例如<img src="picture.jpg">中的src特性。

    6  某些特性不要求一定有值,例如<td nowrap>中的nowrap特性。

    7  定義特性的兩邊有沒有加上雙引號都是可以的,所以<img src="picture.jpg">和<img src=picture.jpg>都是允許的。

    這些問題使建立一個SGML語言的解析器變成了一項艱鉅的任務。判斷何時應用以上規則的困難導致了SGML語言的定義一直停滯不前。以這些問題作爲出發點,XML逐漸步入我們的視野。

    XML去掉了之前令許多開發人員頭疼的SGML的隨意語法。在XML中,採用瞭如下的語法:

    8  任何的起始標籤都必須有一個結束標籤。

    9  可以採用另一種簡化語法,可以在一個標籤中同時表示起始和結束標籤。這種語法是在大於符號之前緊跟一個斜線(/),例如<tag />.XML解析器會將其翻譯成<tag></tag>.

    10  標籤必須按合適的順序進行嵌套,所以結束標籤必須按鏡像順序匹配起始標籤,例如<b>this is a <i>sample</i> string</b>.這好比是將起始和結束標籤看作是數學中的左右括號:在沒有關閉所有的內部括號之前,是不能關閉外面的括號的。

    11  所有的特性都必須有值。

    12  所有的特性都必須在值的周圍加上雙引號。

    這些規則使得開發一個XML解析器要簡便得多,而且也除去了解析SGML中花在判斷何時何地應用那些奇怪語法規則上的工作。僅僅在XML出現後的前六年就衍生出多種不同的語言,包括MathML、SVG、RDF、RSS、SOAP、XSLT、XSL-FO,而同時也將HTML改進爲XHTML.

    如果需要關於SGML和XML具體技術上的對比,請查看W3C的註解,位於:http://www.w3. org/TR/NOTE-sgml-xml.html

    如今,XML已經是世界上發展最快的技術之一。它的主要目的是使用文本以結構化的方式來表示數據。在某些方面,XML文件也類似於數據庫,提供數據的結構化視圖。這裏是一個XML文件的例子:

    每個XML文檔都由XML序言開始,在前面的代碼中的第一行便是XML序言,<?xml version="1.0"?>.這一行代碼會告訴解析器和瀏覽器,這個文件應該按照前面討論過的XML規則進行解析。第二行代碼,<books>,則是文檔元素(document element),它是文件中最外面的標籤(我們認爲元素(element)是起始標籤和結束標籤之間的內容)。所有其他的標籤必須包含在這個標籤之內來組成一個有效的XML文件。XML文件的第二行並不一定要包含文檔元素;如果有註釋或者其他內容,文檔元素可以遲些出現。

    範例文件中的第三行代碼是註釋,你會發現它與HTML中使用的註釋風格是一樣的。這是XML從SGML中繼承的語法元素之一。

    頁面再往下的一些地方,可以發現<desc>標籤裏有一些特殊的語法。<![CDATA[ ]]>代碼用於表示無需進行解析的文本,允許諸如大於號和小於號之類的特殊字符包含在文本中,而無需擔心破壞XML的語法。文本必須出現在<![CDATA[和]]>之間才能合適地避免被解析。這樣的文本稱爲Character Data Section,簡稱CData Section.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章