python語言解析xml文件的常用的有兩種方式

MiniDom方式解析xml

 xml文件以data.xml爲例,具體操作如下:

data.xml:

<?xml version="1.0" encoding="utf-8"?>
<info>
   <intro>保存用戶的信息</intro>
    <list id='001'>
        <head>auto_userone</head>
        <name>Jordy</name>
        <number>12345678</number>
        <age>20</age>
        <sex>男</sex>
        <hobby>上網</hobby>
    </list>

   <list id='002'>
        <head>auto_usertwo</head>
        <name>功夫</name>
         <number>34443678</number>
         <age>18</age>
         <sex>男</sex>
         <hobby>功夫</hobby>          
     </list>

</info>

 1.  得到DOM對象

    DOM是Document Object Model的簡稱,它是以對象樹來表示一個XML。

     import xml.dom.minidom

     #得到dom對象

     dom = xml.dom.minidom.parse("data.xml")

2.  得到文檔元素對象

#得到文檔元素對象

root = dom.documentElement  #這裏得到的是根節點info

#打印根節點的 名字       節點的值      節點類型

print root.nodeName,root.nodeValue,root.nodeType

節點的屬性:

每一個節點都有它的nodeName,nodeValue,nodeType屬性。nodeName爲節點名字。

nodeValue是節點的值,只對文本節點有效。nodeType是節點的類型,現在有以下幾種:

‘ATTRIBUTE_NODE’
‘CDATA_SECTION_NODE’
‘COMMENT_NODE’
‘DOCUMENT_FRAGMENT_NODE’
‘DOCUMENT_NODE’
‘DOCUMENT_TYPE_NODE’
‘ELEMENT_NODE’
‘ENTITY_NODE’
‘ENTITY_REFERENCE_NODE’
‘NOTATION_NODE’
‘PROCESSING_INSTRUCTION_NODE’
‘TEXT_NODE’

3.子元素、子節點的訪問

對於已經知道元素名字的子元素,可以通過使用getElementsByTagName()方法訪問,例:

root.getElementsByTagName("intro") #讀取intro子元素

返回的結果是一個列表。

如果要得到某元素下的所有子節點,可以使用childNodes屬性:

root.childNodes

getElementsByTagName()可以搜索當前元素的所有子元素,包括所有層次的子元素。childNodes只保存了當前元素的第一層子結點。

比如:我們想要得到intro元素下的值“保存用戶的信息”,實現如下代碼:

node = root.getElementsByTagName("intro")[0]

for node in node.childNodes:

    if node.nodeType in ( node.TEXT_NODE, node.CDATA_SECTION_NODE):

        print node.data

這種方式在獲取元素的文本時,需要先判斷才行,所以使用起來感覺不是太方便。

 

ElementTree庫解析xml文件

ElementTree屬於python標準庫的一部分,ElementTree的parse()方法是這個庫的主要入口,它使用文件名或流對象作爲參數,parse()方法會立即解析完整個文檔,它返回的對象是整個文檔的對象,而不是根元素,如果要獲取根元素,可以調用getroot()方法。

使用上述的data.xml文檔,通過ElementTree庫解析的代碼:

import xml.etree.ElementTree as ET

#讀取xml文件
def load_xml_file(fileName):
    root = ET.parse(fileName).getroot()
    
    #獲取文件描述
    intro = root.find('intro').text
    print intro
    
    #獲取所有list節點
    all_users = root.findall('list')
    #遍歷list節點的子元素
    for user in all_users:
        #得到head節點的文本
        head = user.find('head').text
        #得到name節點的文本
        name = user.find('name').text
        #得到sex節點的文本
        sex = user.find('sex').text
        print head,name,sex
        
if __name__ == '__main__':
      
    load_xml_file('data.xml')

通過這種方式解析xml文件比起使用minidom庫解析xml文件的,操作要方便的多。


使用libxml2解析xml

libxml2是使用C語言開發的xml解析器,是一個基於MIT License的免費開源軟件,多種編程語言都有基於它的實現,如本文將會介紹的lxml模塊。實例“get_xpath_1”如下:

mport libxml2
def get_xpath_1():
doc = libxml2.parseFile("data.xml")#data.xml文件結構與上述的input_xml_string相同
for node in doc.xpathEval("//item/data[@version = '1.0']"):
print (node, node.name, (node.properties.name, node.properties.content))
doc.freeDoc()
程序運行結果如下:

(<xmlNode (data) object at 0x9326c6c>, 'data', ('version', '1.0'))  

觀察上面的運行結果,能夠滿足我們的需求,有點小不足“xpathEval()”接口不支持類似模板的用法,但不影響使用,由於libxml2採用C語言開發的,因此在使用API接口的方式上難免會有點“水土不服”(寫法或習慣性用法)

使用lxml解析xml

lxml是以上述介紹過的libxml2爲基礎採用python語言開發的,從使用層面上說比libxml2更適合python開發者(鄙人感受),且"xpath"接口支持類似模板的用法,實例“get_xpath_2”如下:

import lxml.etree  
def get_xpath_2():  
   doc = lxml.etree.parse(file)  
   for node in doc.xpath("//item/data[@version = $name]", name = "1.0"):  
       print (node, node.tag, (node.items()))  

程序運行結果如下:

(<Element data at a1f784c>, 'data', [('version', '1.0'), ('url', 'http://***')])  

使用xpath模塊解析xml

xpath是python官方推薦的一個支持xpath等處理的模塊,是基於本文介紹過的python自帶xml處理模塊擴展而成,可以很好的結合使用,同時“find”接口也支持類似模板的用法,實例“get_xpath_3”如下:

Python代碼

import xpath  
def get_xpath_3():  
   doc = xml.dom.minidom.parseString(input_xml_string)  
   for node in xpath.find("//item/data[@version = $name]", doc, name = "1.0"):  
       print (node, node.tagName, node.getAttribute("version"))  

程序運行結果如下:

(<DOM Element: data at 0x89934cc>, u'data', u'1.0')  

總結:

通過對這些類庫的實踐,我們已經瞭解了python在處理xml格式的數據時有各種各樣的選擇,並得知這些類庫各自擅長那些方面的處理和各種類庫的使用手法,可以根據實際需求選擇合適的類庫完成開發工作。


發佈了26 篇原創文章 · 獲贊 13 · 訪問量 9萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章