MiniDom方式解析xml
xml文件以data.xml爲例,具體操作如下:
data.xml:
<?xml version="1.0" encoding="utf-8"?>
<info>
<intro>保存用戶的信息</intro>
<list id='001'>
<head>auto_userone</head>
<name>Jordy</name>
<number>12345678</number>
<age>20</age>
<sex>男</sex>
<hobby>上網</hobby>
</list>
<list id='002'>
<head>auto_usertwo</head>
<name>功夫</name>
<number>34443678</number>
<age>18</age>
<sex>男</sex>
<hobby>功夫</hobby>
</list>
</info>
1. 得到DOM對象
DOM是Document Object Model的簡稱,它是以對象樹來表示一個XML。
import xml.dom.minidom
#得到dom對象
dom = xml.dom.minidom.parse("data.xml")
2. 得到文檔元素對象
#得到文檔元素對象
root = dom.documentElement #這裏得到的是根節點info
#打印根節點的 名字 節點的值 節點類型
print root.nodeName,root.nodeValue,root.nodeType
節點的屬性:
每一個節點都有它的nodeName,nodeValue,nodeType屬性。nodeName爲節點名字。
nodeValue是節點的值,只對文本節點有效。nodeType是節點的類型,現在有以下幾種:
‘ATTRIBUTE_NODE’
‘CDATA_SECTION_NODE’
‘COMMENT_NODE’
‘DOCUMENT_FRAGMENT_NODE’
‘DOCUMENT_NODE’
‘DOCUMENT_TYPE_NODE’
‘ELEMENT_NODE’
‘ENTITY_NODE’
‘ENTITY_REFERENCE_NODE’
‘NOTATION_NODE’
‘PROCESSING_INSTRUCTION_NODE’
‘TEXT_NODE’
3.子元素、子節點的訪問
對於已經知道元素名字的子元素,可以通過使用getElementsByTagName()方法訪問,例:
root.getElementsByTagName("intro") #讀取intro子元素
返回的結果是一個列表。
如果要得到某元素下的所有子節點,可以使用childNodes屬性:
root.childNodes
getElementsByTagName()可以搜索當前元素的所有子元素,包括所有層次的子元素。childNodes只保存了當前元素的第一層子結點。
比如:我們想要得到intro元素下的值“保存用戶的信息”,實現如下代碼:
node = root.getElementsByTagName("intro")[0]
for node in node.childNodes:
if node.nodeType in ( node.TEXT_NODE, node.CDATA_SECTION_NODE):
print node.data
這種方式在獲取元素的文本時,需要先判斷才行,所以使用起來感覺不是太方便。
ElementTree庫解析xml文件
ElementTree屬於python標準庫的一部分,ElementTree的parse()方法是這個庫的主要入口,它使用文件名或流對象作爲參數,parse()方法會立即解析完整個文檔,它返回的對象是整個文檔的對象,而不是根元素,如果要獲取根元素,可以調用getroot()方法。
使用上述的data.xml文檔,通過ElementTree庫解析的代碼:
import xml.etree.ElementTree as ET #讀取xml文件 def load_xml_file(fileName): root = ET.parse(fileName).getroot() #獲取文件描述 intro = root.find('intro').text print intro #獲取所有list節點 all_users = root.findall('list') #遍歷list節點的子元素 for user in all_users: #得到head節點的文本 head = user.find('head').text #得到name節點的文本 name = user.find('name').text #得到sex節點的文本 sex = user.find('sex').text print head,name,sex if __name__ == '__main__': load_xml_file('data.xml')
通過這種方式解析xml文件比起使用minidom庫解析xml文件的,操作要方便的多。
使用libxml2解析xml
libxml2是使用C語言開發的xml解析器,是一個基於MIT License的免費開源軟件,多種編程語言都有基於它的實現,如本文將會介紹的lxml模塊。實例“get_xpath_1”如下:
mport libxml2
def get_xpath_1():
doc = libxml2.parseFile("data.xml")#data.xml文件結構與上述的input_xml_string相同
for node in doc.xpathEval("//item/data[@version = '1.0']"):
print (node, node.name, (node.properties.name, node.properties.content))
doc.freeDoc()
程序運行結果如下:
(<xmlNode (data) object at 0x9326c6c>, 'data', ('version', '1.0'))
觀察上面的運行結果,能夠滿足我們的需求,有點小不足“xpathEval()”接口不支持類似模板的用法,但不影響使用,由於libxml2採用C語言開發的,因此在使用API接口的方式上難免會有點“水土不服”(寫法或習慣性用法)
使用lxml解析xml
lxml是以上述介紹過的libxml2爲基礎採用python語言開發的,從使用層面上說比libxml2更適合python開發者(鄙人感受),且"xpath"接口支持類似模板的用法,實例“get_xpath_2”如下:
import lxml.etree
def get_xpath_2():
doc = lxml.etree.parse(file)
for node in doc.xpath("//item/data[@version = $name]", name = "1.0"):
print (node, node.tag, (node.items()))
程序運行結果如下:
(<Element data at a1f784c>, 'data', [('version', '1.0'), ('url', 'http://***')])
使用xpath模塊解析xml
xpath是python官方推薦的一個支持xpath等處理的模塊,是基於本文介紹過的python自帶xml處理模塊擴展而成,可以很好的結合使用,同時“find”接口也支持類似模板的用法,實例“get_xpath_3”如下:
Python代碼
import xpath
def get_xpath_3():
doc = xml.dom.minidom.parseString(input_xml_string)
for node in xpath.find("//item/data[@version = $name]", doc, name = "1.0"):
print (node, node.tagName, node.getAttribute("version"))
程序運行結果如下:
(<DOM Element: data at 0x89934cc>, u'data', u'1.0')
總結:
通過對這些類庫的實踐,我們已經瞭解了python在處理xml格式的數據時有各種各樣的選擇,並得知這些類庫各自擅長那些方面的處理和各種類庫的使用手法,可以根據實際需求選擇合適的類庫完成開發工作。