JDOM/XPATH編程指南

前言

XML是一種優秀的數據打包和數據交換的形式,在當今XML大行於天下,如果沒有聽說過它的大名,那可真是孤陋寡聞了。用XML描述數據的優勢顯而易見,它具有結構簡單,便於人和機器閱讀的雙重功效,並彌補了關係型數據對客觀世界中真實數據描述能力的不足。W3C組織根據技術領域的需要,制定出了XML的格式規範,並相應的建立了描述模型,簡稱DOM。各種流行的程序設計語言都紛紛根據這一模型推出了自己的XML解析器,在JAVA世界裏,APACHE組織開發的XERCES應該是流行最廣功能最爲強大的XML解析器之一。但是由於W3C在設計DOM模型時,並不是針對某一種語言而設計,因此爲了通用性,加入了許多繁瑣而不必要的細節 ,使JAVA程序員在開發XML的應用程序過程中感到不甚方便,因此JDOM作爲一種新型的XML解析器橫空出世,它不遵循DOM模型,建立了自己獨立的一套JDOM模型(注意JDOM決不是DOM擴展,雖然名字差不多,但兩者是平行的關係),並提供功能強大使用方便的類庫,使JAVA程序員可以更爲高效的開發自己的XML應用程序,並極大的減少了代碼量,因此它很快得到了業內的認可,如JBUILDER這樣的航空母艦級的重磅產品都以JDOM爲XML解析引擎,足見其名不虛傳。

有了XML數據的描述標準,人們自然就會想到應該有一種查詢語言可以在XML中查找任意節點的數據,就像SQL語句可以在關係性數據庫中執行查詢操作一樣,於是XQUERY和XPATH順應潮流,應運而生。由於XQUERY較爲複雜,使用不甚方便,XPATH漸漸成爲主流,我們只需對XPATH進行學習,便可以應付所有的查詢要求。在JDOM發佈的最新的V1.0bata10版中,已經加入了對XPATH的支持,這無疑是令開發者十分激動的。

學會JDOM和XPATH,你便不再是XML的入門者,在未來的開發生涯中,就像特種兵的多用匕首,爲你披荊斬棘,助你勇往直前。閒言少敘,學習還要腳踏實地,從頭開始。

XPATH速成篇

XPATH遵循文檔對象模型(DOM)的路徑格式,由於每個XML文檔都可以看成是一棵擁有許多結點的樹,每個結點可以是以下七個類型之一:根(root)、元素(element)、屬性(attribute)、正文(text)、命名空間(namespace)、處理指令(processing instruction)和註釋(comment)。XPATH的基本語法由表達式構成。在計算表達式的值之後產生一個對象,這種對象有以下四種基本類型:節點集合、布爾型、數字型和字符串型 。XPATH基本上和在文件系統中尋找文件類似,如果路徑是以"/"開頭的,就表明該路徑表示的是一個絕對路徑,這和在UNIX系統中關於文件路徑的定義是一致的。以"//"開頭則表示在文檔中的任意位置查找。

不談泛泛的理論,學習XPATH還要從實例學起最爲快捷,並有助於你舉一反三。

下面的樣例XML文檔,描述了某臺電腦中硬盤的基本信息(根節點<HD>代表硬盤,<disk>標籤代表硬盤分區,從它的name屬性可以看出有兩個盤符名稱爲"C"和"D"的分區;每個分區下都包含<capacity>,<directories><files>三個節點,分別代表了分區的空間大小、目錄數量、所含文件個數):

<?xml version="1.0" encoding="UTF-8"?>
<HD>
 <disk name="C">
  <capacity>8G</capacity>
  <directories>200</directories>
  <files>1580</files>
 </disk>
 <disk name="D"> 
  <capacity>10G</capacity>
  <directories>500</directories>
  <files>3000</files> 
 </disk>
</HD>
                

你在XML文檔中使用位置路徑表達式來查找信息,這些表達式有很多種組成方式。

結點元素的查找是你將要碰到的最頻繁的查找方式。在上面這個XML文檔例子中,根HD包含disk結點。你可以使用路徑來查找這些結點,用正斜槓(/)來分隔子結點,返回所有與模式相匹配的元素。下面的XPATH 語句返回所有的disk元素:

/HD/disk

"*"代表"全部"的意思。/HD/* 代表HD下的全部節點。

下面的XPATH將返回任意節點下的名稱爲disk的全部節點:

//disk

下面的XPATH將返回名稱爲disk,name屬性爲'C'的全部節點:

/HD/disk[@name='C']

節點的附加元素,比如屬性,函數等都要用方括號擴起來,屬性前面要加上@號

下面的XPATH將返回文件個數爲1580的files節點:

/HD/disk/files[text()='1580']

大家注意到上面包含一個text(),這就是XPATH的一個函數,它的功能是取出當前節點的文本。

下面的XPATH將返回文件個數爲1580的分區:

/HD/disk/files[text()='1580']/parent::*

最後的parent::*表示這個元素的所有的父節點的集合。

XPATH中一些有用的函數:

string concat (string, string, string*) 聯接兩個字符串
boolean starts-with (string, string) 判斷某字符串是否以另一字符串開頭
boolean contains (string, string) 判斷某字符串是否包含另一字符串
string substring (string, number, number) 取子字符串
number string-length (string) 測字符串長度
number sum (node-set) 求和
number floor (number) 求小於此數的最大整數值
number ceiling (number) 求大於此數最小整數值

XPATH具有豐富的表達功能,上面這些已經基本夠用,在你做項目中就會發現根據實際情況有許多查詢需求,你應該參考本文最後提供的W3C發佈的關於XAPH的官方資料進行查閱,我在這裏只起一個拋磚引玉的作用,在下面的章節中,我們的應用範例將不會超出上面提到的這些內容,如果你對XPATH感興趣,應該在讀完本文後,查找相關資料和書籍進行深入學習。

JDOM修煉篇

用過XERCES的程序員都會感到,有時候用一句話就可以說清楚的事,當用XERCES的API來實現時,要三四行程序。

獲得並安裝JDOM

http://www.jdom.org/可以下載JDOM的最新版本,將壓縮包中的jdom.jar及lib目錄下的全部jar包加入到classpath就可以了。

用JDOM解析XML

JDOM模型的全部類都在org.jdom.*這個包裏,org.jdom.input.*這個包裏包含了JDOM的解析器,其中的DOMBuilder的功能是將DOM模型的Document解析成JDOM模型的Document;SAXBuilder的功能是從文件或流中解析出符合JDOM模型的XML樹。由於我們的上面提到的XML樣例存儲在一個名稱爲sample.xml的文件中,很顯然我們應該採用後者作爲解析工具。下面程序演示了jdom的基本功能,即解析一個xml文檔,並挑選一些內容輸出到屏幕上。

import java.util.*;
import org.jdom.*;
import org.jdom.input.SAXBuilder;
public class Sample1 {
 public static void main(String[] args) throws Exception{ 
  SAXBuilder sb=new SAXBuilder();
  Document doc=sb.build("sample.xml");
  Element root=doc.getRootElement();
  List list=root.getChildren("disk");
  for(int i=0;i<list.size();i++){
   Element element=(Element)list.get(i);
   String name=element.getAttributeValue("name");
   String capacity=element.getChildText("capacity");
   String directories=element.getChildText("directories");
   String files=element.getChildText("files");
   System.out.println("磁盤信息:");
   System.out.println("分區盤符:"+name);
   System.out.println("分區容量:"+capacity);
   System.out.println("目錄數:"+directories);
   System.out.println("文件數:"+files);
   System.out.println("-----------------------------------");
  }  
 }
}
                

程序的輸出結果:

磁盤信息:
分區盤符:C
分區容量:8G
目錄數:200
文件數:1580
-----------------------------------
磁盤信息:
分區盤符:D
分區容量:10G
目錄數:500
文件數:3000
-----------------------------------
                

這段程序採用了傳統的解析方式,一級一級的從根節點到子節點逐個採集我們所需要的數據,中規中矩。試想如果這個樹足夠深,我們想取第5 0層第三個節點的數據(誇張了點,呵呵),那將是一場噩夢!下面的內容將輕鬆化解你的這一痛苦。

JDOM+XPATH進階篇

說了那麼多JDOM和XPATH的好處,終於到了英雄有用武之地的時候了。

JDOM的關於XPATH的api在org.jdom.xpath這個包裏。看看這個包下,只有一個類,JDOM就是如此簡潔,什麼事都不故弄玄虛的搞得那麼複雜。這個類中的核心的api主要是兩個selectNodes()和selectSingleNode()。前者根據一個xpath語句返回一組節點;後者根據一個xpath語句返回符合條件的第一個節點。

下面的程序我們用JDOM+XPATH實現了上一個程序同樣的功能,你可以從中學到不少運用XPATH 的知識:

import java.util.*;
import org.jdom.*;
import org.jdom.input.SAXBuilder;
import org.jdom.xpath.XPath;
public class Sample2 {  
 public static void main(String[] args) throws Exception {
  SAXBuilder sb = new SAXBuilder();
  Document doc = sb.build("sample.xml");
  Element root = doc.getRootElement();
  List list = XPath.selectNodes(root, "/HD/disk");
  for (int i = 0; i < list.size(); i++) { 
   Element disk_element = (Element) list.get(i);
   String name = disk_element.getAttributeValue("name");
   String capacity = ( (Text) XPath.selectSingleNode(disk_element, 
    "//disk[@name='" + name + "']/capacity/text()")).getTextNormalize();
   String directories = ( (Text) XPath.selectSingleNode(disk_element,  
    "//disk[@name='" + name + "']/directories/text()")).getTextNormalize();
   String files = ( (Text) XPath.selectSingleNode(disk_element,  
    "//disk[@name='" + name + "']/files/text()")).getTextNormalize();
   System.out.println("磁盤信息:");
   System.out.println("分區盤符:" + name);
   System.out.println("分區容量:" + capacity);
   System.out.println("目錄數:" + directories);
   System.out.println("文件數:" + files);
   System.out.println("-----------------------------------");
  }
 }
}
                

輸出結果:

磁盤信息:
分區盤符:C
分區容量:8G
目錄數:200
文件數:1580
-----------------------------------
磁盤信息:
分區盤符:D
分區容量:10G
目錄數:500
文件數:3000
-----------------------------------
                

結語

技術在日新月異的發展。永遠沒有學過後,便可以一勞永逸的技術。XML的發展一日千里。W3C作爲INTERNET方面的權威組織指導着互聯網技術的發展方向。新技術的出現大都圍繞着W3C制訂的標準,但往往有些“旁門左道”的另類功法卻能產生驚人的殺傷力。JDOM就是這衆多旁門中的一朵奇葩。就像J2EE大行其道的今天,有許多開源組織仍舊在默默的打造着自己的獨家兵器,誰又能說在不久的將來,他們不會成爲劃時代的創造呢? 君不見Hibernate的興起正在有力的震撼着J2EE中EJB架構的基石。只要是成型的框架,必然有薄弱的軟肋。新的技術只要能攻入對方這一弱點,便可在業界站一席之地。本文只起拋磚引玉的作用,相信讀者在吃過這道快餐之後,一定會發現窗外有更美麗的風景等待我們去遊歷。


參考資料


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章