DOM & SAX

原創

2020-07-01 09:59

对XML文档进行解析和数据提取，目前有两大主流技术:DOM（Document Object Model）和SAX（Simple API for XML）。

(一)DOM

DOM可以看作一组API，它把HTML文档、XML文档等看成是一个文档对象，在接口里面存放的是对这些文档操作的属性和方法的定义。若编程语言实现了这些属性和方法，就可以对文档对象中的数据进行存取，并且利用程序对数据做进一步处理。DOM规范的核心是树模型，对于要解析的XML文档，首先利用DOM解析器加载到内存中，在内存中为XML文件建立逻辑形式的树。

根据 DOM，XML 文档中的每个成分都是一个节点。DOM 是这样规定的：

& 整个文档是一个文档节点（document）

& 每个 XML 标签是一个元素节点(element)

& 包含在 XML 元素中的文本是文本节点(Text)

& 每一个 XML 属性是一个属性节点(attribute)

& 注释属于注释节点(notation)

另外在 DOM 处理中一个普遍的错误是，认为元素节点包含文本。其实元素节点的文本是存储在文本节点中的。在这个例子中：<year>2005</year>，元素节点 <year>，拥有一个值为 "2005" 的文本节点。"2005" 不是 <year> 元素的值。

利用DOM进行解析，掌握：树型结构的思想，上述结点类型（nodetype），辅之以接口中的属性方法，一切就easy了。下面使用DOM对book.xml进行遍历解析：

<?xml version="1.0" encoding="GB2312"?> <书库> <书种类="历史"> <标题>上下五千年</标题> <作者>王强</作者> <出版日期>2005</出版日期> <价格>30.00元</价格> </书> <书种类="小说"> <标题>中国，你好</标题> <作者>孙静</作者> <出版日期>2005</出版日期> <价格>29.99元</价格> </书> <书种类="计算机"> <标题>如何成为一个程序员</标题> <作者>姜俊杰</作者> <出版日期>2006</出版日期> <价格>49.99元</价格> </书> </书库>

import java.io.*; import org.w3c.dom.*; import javax.xml.parsers.*; //利用DOM接口解析XML文件 public class DOM{ public static void main(String args[]){ try{ DocumentBuilderFactory docFactory=DocumentBuilderFactory.newInstance(); //创建API工厂 DocumentBuilder docBuilder=docFactory.newDocumentBuilder(); //定义 API，使其从 XML 文档获取 DOM 文档实例 Document document=docBuilder.parse(new File("E://Topic//JAVA//XMLParse//book.xml")); //该XML文件被封装成document对象，加载到内存 Element root=document.getDocumentElement(); //获取根元素 String rootName=root.getNodeName(); //根节点名称 System.out.println("The Topic is :"+rootName); NodeList nodelist=root.getElementsByTagName("书"); //获取“书”结点集合 int len=nodelist.getLength(); for(int i=0;i<len;i++) { Node node=nodelist.item(i); //"书"结点 String attr=((Element)node).getAttribute("种类"); //获取属性结点值 System.out.println("/n种类--"+attr); NodeList nodelist1=node.getChildNodes(); //"书“结点子结点集合 for(int k=0;k<nodelist1.getLength();k++){ Node node1=nodelist1.item(k); if(node1.getNodeType()==Node.ELEMENT_NODE){ //如果是元素结点（每个 XML 标签是一个元素节点） Element elementnode=(Element)node1; String name=elementnode.getNodeName(); //获取元素结点值 String content=elementnode.getTextContent(); //获取文本结点值 System.out.println(name+":"+content); } } } } catch(Exception e){ System.out.println(e); } } }

（二）SAX

SAX不是W3C官方标准，但应用的丝毫不比DOM少。它有两个主要特点：1）在处理DOM的时候需要将整个XML文档加载到内存，不适合处理大文档。而SAX是一种轻量型方法，可以解析任意大小的文件。2）SAX以流的方式读取XML文件到内存，是事件驱动的。文档的读入过程就是SAX的解析过程。

SAX的核心是事件处理机制。当用SAX把一个要解析的XML文件调入内存时，需要对该XML文件读取，当读到一个开始标记时，就会触发一个事件，并调用与该事件相应的方法来处理这个事件。解析器遇到XML文件的开始标记、空白字符、结束标记、标记内容等都会触发相应的事件。

同样遍历book.xml:

import javax.xml.parsers.*; import org.xml.sax.helpers.*; import org.xml.sax.*; import java.io.*; public class SAX{ public static void main(String args[]){ try{ SAXParserFactory factory=SAXParserFactory.newInstance(); SAXParser saxParser=factory.newSAXParser(); //创建SAX解析器 MyHandler1 handler=new MyHandler1(); //创建事件处理器 saxParser.parse(new File("book.xml"),handler); //绑定xml文件和事件处理者 } catch(Exception e){ System.out.println(e); } } } class MyHandler1 extends DefaultHandler{ public void startDocument(){ //解析到文档开始时调用该方法 } public void endDocument(){ //解析到文档结束时调用该方法 } public void startElement(String uri,String localName,String qName,Attributes atts){ //标记开始时调用 if(atts.getLength()>0){ System.out.println(atts.getLocalName(0)+"--"+atts.getValue(0)); //获取属性名称和属性值 } if(qName.compareTo("书库")!=0&&qName.compareTo("书")!=0) //获取标签值 System.out.print(qName+":"); } public void endElement(String uri,String localName,String qName){ //标记结束时调用 } public void characters(char[] ch,int start,int length){ //解析到标记间数据时调用 String text=new String(ch,start,length); System.out.println(text); } }

SAX只是顺序检查XML文档中的字节流，并触发相应事件。而对于事件处理函数本身，则要应用程序自己实现。但是对于只需要访问数据的应用来说，SAX效率是更高的。一般可以将DOM和SAX优势结合使用，用SAX获取相应数据，用DOM根据新的需要形成一个XML文件。

运行结果：

The Topic is :书库

种类--历史
标题:上下五千年
作者:王强
出版日期:2005
价格:30.00元

种类--小说
标题:中国，你好
作者:孙静
出版日期:2005
价格:29.99元

种类--计算机
标题:如何成为一个程序员
作者:姜俊杰
出版日期:2006
价格:49.99元

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

DOM & SAX

「Pygors跨平台GUI」1：Pygors跨平台GUI应用研究

[转帖]

python列出centos7内存使用前50的进程信息

「Pygors跨平台GUI」2：安装MinGW-w64、MSYS2还是WSL2

一键自动化博客发布工具,用过的人都说好(掘金篇)

通义千问 2.5 “客串” ChatGPT4，你分的清吗？

Garnet：微软官方基于.NET开源的高性能分布式缓存存储数据库

Flink执行图

Java响应式编程

评估统计算法在银行伪造钞票检测中的价值

DOM & SAX

Jmail郵件發送

所謂的....

心學史上的頓悟

共引聚類分析方法研究

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結