C++解析XML

C++解析XML

用mingw32-make前修改一下makefile文件,改爲如下
# DEBUG can be set to YES to include debugging info, or NO otherwise(不是DEBUG)
DEBUG          := NO
# PROFILE can be set to YES to include profiling info, or NO otherwise
PROFILE        := NO
# TINYXML_USE_STL can be used to turn on STL support. NO, then STL
# will not be used. YES will include the STL files.(使用STL,選擇的話,則可以使用std::string)
TINYXML_USE_STL := YES
一、      TinyXml的特點
TinyXml是一個基於DOM模型的、非驗證的輕量級C++解釋器。
1.      SAX和DOM
目前XML的解析主要有兩大模型:SAX和DOM。
其中SAX是基於事件的,其基本工作流程是分析XML文檔,當發現了一個新的元素時,產生一個對應事件,並調用相應的用戶處理函數。這種方式佔用內存少,速度快,但用戶程序相應得會比較複雜。
而DOM(文檔對象模型),則是在分析時,一次性的將整個XML文檔進行分析,並在內存中形成對應的樹結構,同時,向用戶提供一系列的接口來訪問和編輯該樹結構。這種方式佔用內存大,速度往往慢於SAX,但可以給用戶提供一個面向對象的訪問接口,對用戶更爲友好。
2.      驗證和非驗證
對於一個特定的XML文檔而言,其正確性分爲兩個層次。首先是其格式應該符合XML的基本格式要求,比如第一行要有聲明,標籤的嵌套層次必須前後一致等等,符合這些要求的文件,就是一個合格的XML文件,稱作well-formatted。但除此之外,一個XML文檔因其內容的不同還必須在語義上符合相應的標準,這些標準由相應的DTD文件或者Schema文件來定義,符合了這些定義要求的XML文件,稱作valid。
因此,解析器也分爲兩種,一種是驗證的,即會跟據XML文件中的聲明,用相應的DTD文件對XML文件進行校驗,檢查它是否滿足DTD文件的要求。另一種是忽略DTD文件,只要基本格式正確,就可以進行解析。
就我所知,驗證的解析器通常都是比較重量級的。TinyXml不支持驗證,但是體積很小,用在解析格式較爲簡單的XML文件,比如配置文件時,特別的合適。
二、 TinyXml的構建和使用
1.      獲取
TinyXml首頁在http://www.grinninglizard.com/tinyxml/index.html,從這裏可以找到最新版本的源代碼,目前的版本是 2.4.3 (截至2006.5.17).
2.構建
TinyXml在構建時可以選擇是否支持STL,選擇的話,則可以使用std::string,所以通常應在Windows上,TinyXml的源碼包裏提供了VC6的工程文件,直接用它就可以生成兩個靜該打開這個選項。態庫(帶STL和不帶STL),非常容易。唯一需要注意的是,默認生成的庫是單線程的,如果用在多線程的項目中,需要改動一下配置,生成相應的多線程庫。
在Unix平臺上,TinyXml的源碼包裏只提供了一個Makefile,對於典型的Linux系統,或裝了gcc和gmake的其他Unix,這個Makefile足夠用了,我在RH9和RHEL4上測試,簡單的make就成功了。需要注意的有以下幾點:默認的編譯是不支持STL的,可以通過編輯Makefile的TINYXML_USE_STL := NO那一行,把NO改成YES就可以支持STL了;還有默認只生成了一個測試程序,沒有生成任何庫,如果要生成靜態庫的話,可以用ar命令,將生成的幾個目標文件打包就行了,如果要生成動態庫,則需要加上-fpic參數重新編譯。
3.      使用
構建了相應的庫之後,在使用了它們的工程中,只要在連接時把他們連上就行了。需要注意的是,如果需要STL支持,在編譯用到了TinyXml的文件時,需要定義一個宏TIXML_USE_STL,對gcc,可以使用參數-DTIXML_USE_STL,對cl.exe(VC),可以使用參數/DTIXML_USE_STL,如果嫌麻煩,可以直接定義在 tinyxml.h文件裏。
三、 TinyXml的編程模型
1.類之間的關係
TinyXml實現的時DOM訪問模型,因此提供了一系列的類對應XML文件中的各個節點。主要類間的關係如下圖所示:
TiXmlBase:其它類的基類,是個抽象類
TiXmlNode:表示一個節點,包含節點的一般方法,如訪問自節點、兄弟節點、編輯自身、編輯子節點
TiXmlDocument:表示整個XML文檔,不對應其中某個特定的節點。
TiXmlElement:表示元素節點,可以包含子節點和TiXmlAttribute
TiXmlComment:表示註釋
TiXmlDeclaration:表示聲明
TiXmlText:表示文本節點
TiXmlUnknown:表示未知節點,通常是出錯了
TiXmlAttribute:表示一個元素的屬性
下面是一個簡單的例子:
<?xml version="1.0" encoding="utf-8" ?>
<!-This is only a sample-->
<book>
       <name>TinyXml How To</name>
       <price unit=”RMB”>20</price>
       <description>Some words…</description>
</ book >
整個文檔,對應TiXmlDocument
book,name,price, description,都對應TiXmlElement
第一行對應一個TiXmlDeclaration
第二行對應一個TiXmlComment
“TinyXml How To”對應一個TiXmlText
unit則是price的一個TiXmlAttribute
這些類與XML文件中的相應元素都有很好的對應關係,因此相信參照TinyXml的文檔,可以很容易的掌握各個方法的使用。
2.  需要注意的問題
各類之間的轉換
由於各個節點類都從TiXmlNode繼承,在使用時常常需要將TiXmlNode*類型的指針轉換爲其派生類的指針,在進行這種轉換時,應該首先使用由TiXmlNode類提供的一系列轉換函數,如ToElement(void),而不是c++的dynamic_cast
檢查返回值
由於TinyXml是一個非校驗的解析器,因此當解析一個文件時,很可能文件並不包含我們預期的某個節點,在這種情況下,TinyXml將返回空指針。因此,必須要對返回值進行檢查,否則將很容易出現內存訪問的錯誤。
如何重頭建立一個XML文件
先建立一個TiXmlDocument對象,然後,載入某個模板,或者直接插入一個節點作爲根節點,接着就可以像打開一個已有的XML文件那樣對它進行操作了。
四、總結
TinyXml最大的特點就是它很小,可以很方便的靜態連接到程序裏。對於像配置文件、簡單的數據文件這類文件的解析,它很適合。但是由於它是非驗證的,因此需要在程序裏做許多檢查工做,加重了程序編寫的負擔。因此對於複雜的XML文件,我覺得最好還是用驗證的解析器來處理。

--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

出處http://blog.chinaunix.net/uid-20653353-id-1906170.html

致謝!

http://www.cppblog.com/alantop/archive/2006/05/17/7303.html
Homepage: http://www.grinninglizard.com/tinyxml/
download:http://sourceforge.net/projects/tinyxml

發佈了10 篇原創文章 · 獲贊 3 · 訪問量 1萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章