XMLTextReader讀取XML文件

在.NET框架的System.XML名稱空間中包含的XMLTextReader類不需要對系統資源要求很高,就能從XML文件中快速讀取數據。使用XMLTextReader類能夠從XML文件中讀取數據,並且將其轉換爲HTML格式在瀏覽器中輸出。

  微軟公司的.NET框架爲開發者提供了許多開發的便利,隨着XML的重要性不斷增長,開發者們都期待着有一整套功能強大的XML工具被開發出來。.NET框架沒有辜負我們的這番期望,在System.XML 名稱空間中組織進了以下幾個用於XML的類:

  XMLTextReader------提供以快速、單向、無緩衝的方式存取XML數據。(單向意味着你只能從前往後讀取XML文件,而不能逆向讀取)

  XMLValidatingReader------與XMLTextReader類一起使用,提供驗證DTD、XDR和XSD架構的能力。

  XMLDocument------遵循W3C文檔對象模型規範的一級和二級標準,實現XML數據隨機的、有緩存的存取。一級水平包含了DOM的最基本的部分,而二級水平增加多種改進,包括增加了對名稱空間和級連狀圖表(css)的支持。

  XMLTextWriter------生成遵循 W3C XML 1.0 規範的XML文件。

  本文主要講述的是第一個類XMLTextReader,這個類設計的目的就是從XML文件中快速的讀取數據,而對系統資源(主要包括內存和處理 器時間)不做很高的要求。在父級程序的控制下,它通過每次只處理一個節點的方式對XML文件進行逐步操作,實現這種工作過程。在XML文件的每個節點中, 父級程序能決定該節點的類型,它的屬性和數據(如果有的話),以及其他有關該節點的信息。基於這些信息,父級程序可以選擇是處理這個節點還是忽略該節點的 信息,以滿足各種應用程序請求的需要。這被稱爲抽取式(pull)處理模型,因爲父級程序發出請求並且從XML文件中抽取各個節點,然後根據需要處理它或 者是不處理它。
  我們可以把XMLTextReader類和XML簡單應用程序接口,即SAX相比,後者是在編程人員中非常流行的另一種讀取 XML數據的技術。XMLTextReader 和SAX有一點很相似,它們都不需要佔用很多的系統資源,就能迅速的從XML文件讀取數據。但是,與XMLTextReader的抽取式模型迥然不 同,SAX使用的是推入式模型:XML處理器通過 “事件”告知主機應用程序哪些節點數據是可以獲得,那些不能獲得;根據需要,主機程序則作出相應的反應或置之不理。換句話說,數據的傳送方向是從SAX處 理程序中推入到主機。程序員們勢必會在抽取式和推入式處理模型誰更有優勢的問題上爭論一番,但是大家都不可否認的是,兩種模型都能很好的進行工 作。.NET 框架不支持SAX,但是你能使用現存的SAX工具, 例如 MSXML分析器,用於你的.NET 程序。

  XMLTextReader 類有一些構造程序來適應各種各樣的情況,比如從一個已經存在的數據流或統一資源定位網址讀取數據。最常見的是,你或許想從一個文件讀取XML數據,那麼也 就有一個相應的構造程序來爲此服務。這裏有一個例子(我的所有代碼例子都使用的是C#語言,如果你喜歡使用VISUAL BASIC語言,它們轉換起來很容易)。

XMLTextReader myReader;
myReader = New XMLTextReader("c:/data/sales.XML")

  創建一個稱爲Read()方法的循環,這個方法的返回值總是爲真,直到到達文件的底部時,返回值才變爲假。換句話說, 循環在文件的開始時啓動並且讀入所有的節點, 一次讀入一個節點, 直到到達文件的結尾:

While (myReader.Read()) {
...
// 在這裏處理每個節點.
...
}

  每次成功調用Read()之後,XMLTextReader實例化程序包含了目前節點(即剛剛從文件中讀取的那個節點)的信息。我們可以從 XMLTextReader的成員中獲得上述信息,就像表格1中描述的一樣;並通過NodeType屬性判斷出當前節點的類型。在節點類型的基礎上,程序 的代碼可以讀取節點數據,檢查它是否有屬性,到底是忽略它還是根據程序需要進行相應的操作和處理。

  當使用NodeType屬性時,理解節點怎麼聯繫到XML單元是非常重要的。例如, 看下列 XML元素:

<city>Chongqing</city>

  XMLtextReader 把這個元素看作 3 個節點,順序如下:

  1.<city>標籤被讀爲類型 XMLNodeType.Element 節點,元素的名字“city”可從 XMLTextReader 的Name屬性中獲得。

  2.文本數據“Chongqing”被讀爲類型爲XMLNodeType.Text的節點。數據“Chongqing ” 可從XMLTextReader 的Value屬性中取得。

  3.</city>標籤被讀爲類型爲XMLNodeType.EndElement 節點。同樣,元素的名稱“city”可從XMLTextReader的Name屬性中獲得。

  這是 3 種重要的節點類型,其它的類型在.NET的說明文檔中有詳細說明,請大家參閱相關資料。

  如果XMLTextReader遇到一個錯誤, 例如出現違反XML句法的情況,它拋出一個System.XML.XMLException類型的異常。使用這個類的代碼應該總是被保護 ( 在Try……Catch塊中),就像你以後在演示程序中看到的一樣。
   本文只是一篇相當簡單的介紹XMLTextReader 類的文章,XMLTextReader類有相當多的成員,在這裏不可能一一述及。當讀入XML數據時,XMLTextReader能提供相當強的靈活性。 即便如此,我仍然進行了大量的論述,以保證讀者能編制程序來實現現實世界中經常要求完成的任務,也就是從一個XML文件讀取數據然後以HTML的格式輸 出,從而實現在瀏覽器中的顯示。

  這個ASP.NET 程序(腳本)在服務器上運行併產生一個HTML頁面返回瀏覽器。這段腳本程序在代碼段 1 給出,它用來工作使用的 XML 數據文件在代碼段 2給出。你能看到這個 XML 文件包含一份表示聯繫關係的列表;程序的目標即是將這個列表顯示出來,爲了更容易我們觀察,這些列表已經被格式化了。

  運行程序:

  1. 將代碼段1存爲XMLTextReader.ASPx文件,將代碼段2存爲XMLData.XML文件。

  2. 把這兩個文件都放在一個已經安裝好.NET 框架的網絡服務器的虛擬文件夾中。

  3. 打開 Internet Explorer 並且瀏覽這個ASPx文件,例如,在一個局域網服務器上, URL 將是 http://localhost/xmltextreader.ASPx ;。

  程序工作的大部分都由XMLDisplay 類來做,尤其是被ProcessXML()方法完成的。它每次讀取一個節點XML數據,對於感興趣的元素,節點數據和後跟冒號的節點名將和相應的HTML 格式化標籤一起寫入輸出結果中。在這階段,“輸出結果”由一個HTML文本暫時儲存在其中的StringBuilder對象構成。

  ProcessXML()方法是從LoadDocument()方法調用的。這個方法執行的任務是產生一個XMLTextReader實例化程 序並在調用ProcessXML之前裝載XML文件。它同時也處理異常,隨後產生錯誤的信息並在瀏覽器中顯示出來。最終該方法返回一個字符串,這個字符串 或者包含產生的HTML內容,或者如果異常發生的話就包含出錯信息,。

  程序執行以Page_Load()程序開始,當瀏覽器請求瀏覽這個頁面時,這一步會自動執行。這裏的代碼實例化了XMLDisplay 類並調用它的LoadDocument()方法。如果一切運行正常的話,格式化的HTML形式的返回值將被拷貝到頁面的一個<div>標籤中,生成的 HTML文檔被送回到瀏覽器中並顯示出來。

  其他的.NET 框架的類,比如XMLDocument類在讀取XML數據方面表現如何呢?XMLDocument 類與XMLTextReader 類不同,它在存儲器中創建整個XML文檔的節點樹。這樣就可以隨機的獲得XML數據(與XMLTextReader 類獲得數據的線性方式正好相反),並且在修改XML文件的數據和結構時,具有非常完美的靈活性。另外,XMLDocument允許執行XSLT 轉變,不過,這些額外的功能是以運行速度的降低和系統資源的更多佔用爲代價的。
  代碼段1:XmlTextReader.aspx

<%@ Import Namespace="System.Xml" %>

<script language="C#" runat=server>

public class XmlDisplay
file://這個類讀入並處理XML文件。
{

public string LoadDocument(String XmlFileName) {
XmlTextReader xmlReader = null;
StringBuilder html = new StringBuilder();
try {
file://創建XMLTextReader的實例。
xmlReader = new XmlTextReader(XmlFileName);
// 處理XML文件
html.Append(ProcessXml(xmlReader));
}
catch (XmlException ex){
html.Append("發生一個XML異常:" +
ex.ToString());
}
catch (Exception ex){
html.Append("發生一個普通異常:" +
ex.ToString());
}
finally
{
if (xmlReader != null)
xmlReader.Close();
}
return html.ToString();
}

private string ProcessXml(XmlTextReader xmlReader)
{
StringBuilder temp = new StringBuilder();

file://這個方法讀入XML文件並生成輸出的HTML文檔。
while ( xmlReader.Read() )
{
// 處理一個元素節點的起始。
if (xmlReader.NodeType == XmlNodeType.Element)
{
file://忽略<people>和<person>元素
if ((xmlReader.Name != "person") && (xmlReader.Name != "people"))
{
file://如果是一個<category>元素,開始一個新的段落
if ( xmlReader.Name == "category" )
temp.Append("<p>");
file://添加元素名到輸出中
temp.Append( xmlReader.Name + ": " );
}
}
// 處理文本節點
else if (xmlReader.NodeType == XmlNodeType.Text)
temp.Append(xmlReader.Value + "<br>");
file://處理元素節點的結尾
else if (xmlReader.NodeType == XmlNodeType.EndElement)
{
file://如果是<email>節點,添加結束段落的標記
if ( xmlReader.Name == "email" )
temp.Append("</p>");
}
}//結束while循環

return temp.ToString();

} file://結束ProcessXML方法

} file://結束XmlDisplay類

private void Page_Load(Object sender, EventArgs e){
file://創建XmlDisplay類的實例
XmlDisplay XmlDisplayDemo = new XmlDisplay();
output.InnerHtml = XmlDisplayDemo.LoadDocument(Server.MapPath("XMLData.xml"));
}
</script>
<html>
<head>
</head>
<body>
<h2>演示XmlTextReader類</h2>
<div id="output" runat="server"/>
</body>
</html>

 

 

 

 1    static void Main(string[] args)
 2        {
 3            DateTime d1 =DateTime.Now;
 4            XmlDocumentTest();
 5            DateTime d2 =DateTime.Now;
 6            TimeSpan ts =d2-d1 ;
 7           
 8            Console.WriteLine(ts.TotalMilliseconds) ;   
 9            Console.Read() ;
10
11        }
12
13
14        public static string XmlFileName = "../../XML/1.xml";
15       
16        private static void XmlTextReaderTest()
17        {
18            XmlTextReader reader = new XmlTextReader(XmlFileName);
19            while (reader.Read() )
20            {
21                bool exit =false;
22                switch(reader.NodeType)
23                {
24                    case XmlNodeType.Element :
25                        break;
26                    case XmlNodeType.Text :
27                        if (reader.Value=="last")
28                        {
29                            exit=true;
30                        }
31                        break;
32                    case XmlNodeType.EndElement  :
33                        break;
34                    default:
35                        break;
36                }
37                if(exit)
38                {
39                    return;
40                   
41                }
42
43            }
44        }
45
46        private static void XmlDocumentTest()
47        {
48            XmlDocument xd =new XmlDocument() ;
49            xd.Load(XmlFileName) ;
50            XmlNode node = xd.SelectSingleNode("/people/person[category='last']");
51            Console.Write(node.Name) ;
52        }

下面是使用 XmlTextReader 類時的注意事項。

  • XmlTextReader 引發的異常可能會泄漏您不希望冒泡到應用程序的路徑信息。應用程序必須捕捉異常並進行相應的處理。

  • DTD 處理在默認情況下是啓用的。如果擔心出現拒絕服務問題或者正在處理不受信任的源,則應禁用 DTD 處理。將 ProhibitDtd 屬性設置爲 true 可禁用 DTD 處理。

    如果啓用了 DTD 處理,則可使用 XmlSecureResolver 限制 XmlTextReader 可訪問的資源。還可以設計應用程序以使 XML 處理受內存和時間的約束。例如,在 ASP.NET 應用程序中配置超時限制。

  • XML 數據可包括對 DTD 文件等外部資源的引用。在默認情況下,使用不具有用戶憑據的 XmlUrlResolver 對象解析外部資源。通過執行下列操作之一,可以使此操作更加安全:

    • 通過將 XmlResolver 屬性設置爲 XmlSecureResolver 對象限制 XmlTextReader 可訪問的資源。

    • 通過將 XmlResolver 屬性設置爲空引用(在 Visual Basic 中爲 Nothing) 不允許 XmlReader 打開任何外部資源。

  • XML 數據可以包含大量需要很多時間才能處理的屬性、命名空間聲明、嵌套元素等。若要限制發送到 XmlTextReader 的輸入的大小,請創建自定義的 IStream 實現併爲其提供 XmlTextReader

  • ReadValueChunk 方法可用於處理大的數據流。此方法一次讀取少量字符,而不是爲整個值分配一個字符串。

  • 默認情況下不展開常規實體。調用 ResolveEntity 方法時展開常規實體。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章