python語言解析xml文件的常用的有兩種方式

原創

NGForever

2020-02-21 05:21

MiniDom方式解析xml

xml文件以data.xml爲例，具體操作如下：

data.xml:

<?xml version="1.0" encoding="utf-8"?>
<info>
   <intro>保存用戶的信息</intro>
    <list id='001'>
        <head>auto_userone</head>
        <name>Jordy</name>
        <number>12345678</number>
        <age>20</age>
        <sex>男</sex>
        <hobby>上網</hobby>
    </list>

   <list id='002'>
        <head>auto_usertwo</head>
        <name>功夫</name>
         <number>34443678</number>
         <age>18</age>
         <sex>男</sex>
         <hobby>功夫</hobby>          
     </list>

</info>

1. 得到DOM對象

DOM是Document Object Model的簡稱，它是以對象樹來表示一個XML。

import xml.dom.minidom

#得到dom對象

dom = xml.dom.minidom.parse("data.xml")

2. 得到文檔元素對象

#得到文檔元素對象

root = dom.documentElement #這裏得到的是根節點info

#打印根節點的名字節點的值節點類型

print root.nodeName,root.nodeValue,root.nodeType

節點的屬性：

每一個節點都有它的nodeName，nodeValue，nodeType屬性。nodeName爲節點名字。

nodeValue是節點的值，只對文本節點有效。nodeType是節點的類型，現在有以下幾種：

‘ATTRIBUTE_NODE’
‘CDATA_SECTION_NODE’
‘COMMENT_NODE’
‘DOCUMENT_FRAGMENT_NODE’
‘DOCUMENT_NODE’
‘DOCUMENT_TYPE_NODE’
‘ELEMENT_NODE’
‘ENTITY_NODE’
‘ENTITY_REFERENCE_NODE’
‘NOTATION_NODE’
‘PROCESSING_INSTRUCTION_NODE’
‘TEXT_NODE’

3.子元素、子節點的訪問

對於已經知道元素名字的子元素，可以通過使用getElementsByTagName()方法訪問，例：

root.getElementsByTagName("intro") #讀取intro子元素

返回的結果是一個列表。

如果要得到某元素下的所有子節點，可以使用childNodes屬性:

root.childNodes

getElementsByTagName()可以搜索當前元素的所有子元素，包括所有層次的子元素。childNodes只保存了當前元素的第一層子結點。

比如：我們想要得到intro元素下的值“保存用戶的信息”，實現如下代碼：

node = root.getElementsByTagName("intro")[0]

for node in node.childNodes:

if node.nodeType in ( node.TEXT_NODE, node.CDATA_SECTION_NODE):

print node.data

這種方式在獲取元素的文本時，需要先判斷才行，所以使用起來感覺不是太方便。

ElementTree庫解析xml文件

ElementTree屬於python標準庫的一部分,ElementTree的parse()方法是這個庫的主要入口，它使用文件名或流對象作爲參數，parse()方法會立即解析完整個文檔，它返回的對象是整個文檔的對象，而不是根元素，如果要獲取根元素，可以調用getroot()方法。

使用上述的data.xml文檔，通過ElementTree庫解析的代碼：

import xml.etree.ElementTree as ET

#讀取xml文件
def load_xml_file(fileName):
    root = ET.parse(fileName).getroot()
    
    #獲取文件描述
    intro = root.find('intro').text
    print intro
    
    #獲取所有list節點
    all_users = root.findall('list')
    #遍歷list節點的子元素
    for user in all_users:
        #得到head節點的文本
        head = user.find('head').text
        #得到name節點的文本
        name = user.find('name').text
        #得到sex節點的文本
        sex = user.find('sex').text
        print head,name,sex
        
if __name__ == '__main__':
      
    load_xml_file('data.xml')

通過這種方式解析xml文件比起使用minidom庫解析xml文件的，操作要方便的多。

使用libxml2解析xml

libxml2是使用C語言開發的xml解析器，是一個基於MIT License的免費開源軟件，多種編程語言都有基於它的實現，如本文將會介紹的lxml模塊。實例“get_xpath_1”如下：

mport libxml2
def get_xpath_1():
doc = libxml2.parseFile("data.xml")#data.xml文件結構與上述的input_xml_string相同
for node in doc.xpathEval("//item/data[@version = '1.0']"):
print (node, node.name, (node.properties.name, node.properties.content))
doc.freeDoc()
程序運行結果如下：

(<xmlNode (data) object at 0x9326c6c>, 'data', ('version', '1.0'))

觀察上面的運行結果，能夠滿足我們的需求，有點小不足“xpathEval()”接口不支持類似模板的用法，但不影響使用，由於libxml2採用C語言開發的，因此在使用API接口的方式上難免會有點“水土不服”(寫法或習慣性用法)

使用lxml解析xml

lxml是以上述介紹過的libxml2爲基礎採用python語言開發的，從使用層面上說比libxml2更適合python開發者(鄙人感受)，且"xpath"接口支持類似模板的用法，實例“get_xpath_2”如下：

import lxml.etree  
def get_xpath_2():  
   doc = lxml.etree.parse(file)  
   for node in doc.xpath("//item/data[@version = $name]", name = "1.0"):  
       print (node, node.tag, (node.items()))

程序運行結果如下：

(<Element data at a1f784c>, 'data', [('version', '1.0'), ('url', 'http://***')])

使用xpath模塊解析xml

xpath是python官方推薦的一個支持xpath等處理的模塊，是基於本文介紹過的python自帶xml處理模塊擴展而成，可以很好的結合使用，同時“find”接口也支持類似模板的用法，實例“get_xpath_3”如下：

Python代碼

import xpath  
def get_xpath_3():  
   doc = xml.dom.minidom.parseString(input_xml_string)  
   for node in xpath.find("//item/data[@version = $name]", doc, name = "1.0"):  
       print (node, node.tagName, node.getAttribute("version"))

程序運行結果如下：

(<DOM Element: data at 0x89934cc>, u'data', u'1.0')

總結:

通過對這些類庫的實踐，我們已經瞭解了python在處理xml格式的數據時有各種各樣的選擇，並得知這些類庫各自擅長那些方面的處理和各種類庫的使用手法，可以根據實際需求選擇合適的類庫完成開發工作。

NGForever

發佈了26 篇原創文章 · 獲贊 13 · 訪問量 9萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python語言解析xml文件的常用的有兩種方式

使用libxml2解析xml

使用lxml解析xml

使用xpath模塊解析xml

容器中nginx無法使用同一個網絡下的容器域名

Python: SunMoonTimeCalculator

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

nodejs學習07——API

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

模塊開發

ubuntu 11.10 創建桌面快捷方式

深入理解OpenERP的工作流(Workflow)

模塊開發實例（Story 2）繼承視圖

OpenERP 模塊動態加載原理及啓動代碼分析

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結