簡說XML的解析方式(DOM,SAX,StAX)

原創

2020-02-22 12:50

一般來說,解析XML文件存在着兩種方式,一種是event-based API，比如說象SAX,XNI. 第二種是tree-based API,比如說DOM,JDOM,DOM4j等等. 一般來說,讀取配置文件時,我們一般比較喜歡應用tree-based API這種方式,就是把xml文件讀入,變成DOM形式的一棵樹,然後進行查找，獲取自己說想要的東西. 但是,這種方式有個缺點,那就是如果你這個XML文件很大的話,你需要佔用很大的內存.
所以對於很大的一個xml文件,又不需要進行隨機查找的時候,比較適合採用event-based API,那就是說他解析xml文件,如果是START_ELEMENT，那麼他就調用startElement()的回調方法..他遍歷過了就過了，不能再回去.
在event-based API中又存在兩種方式: 一個是PUSH的方式,就比如說是SAX. 另外一種是PULL的方式,比如StAX.
怎麼來理解PUSH和PULL的區別呢. 先假設有這麼三個角色: application, xmlFile, xmlParser. 那麼,如果我們採用PUSH的方式,步驟爲:
1. 創建一個xmlParser.
2. 把我們的application處理xml的註冊到xmlParser.
3. xmlParser遍歷xmlFile,然後來調用application.
這裏面,用的是Observer的模式,就是接收到event的時候,去調用event的callback函數, 這裏面有個很不好的地方就是,你application反而是被Parser控制了.
於是,就出現了PULL方式的解析.
1. 創建一個xmlParser
2. xmlParser打開一個xmlFile
3. application調用這個xmlParser, 來獲取xmlParser打開xmlFile所得到的一系列event.
這裏,用到了Iterator的模式. 最主要的一點是: 這個時候application控制了xmlParser.
StAX有兩種API,一種是cursor-based,一種是iterator-based. 這兩種詳細的比較參考:http://java.sun.com/webservices/docs/1.6/tutorial/doc/SJSXP3.html#wp102139

這裏,SAX和StAX的另外一點區別是: SAX只能讀xml文件. StAX不但能讀xml文件,而且還能寫xml文件.

傳統的處理XML的API有DOM和SAX兩種，DOM速度慢，佔用內存極大。SAX雖然比DOM快，但速度任不理想。現在，一種新的基於流的Stream API for XML（簡稱 StAX）極大地提高了XML的處理速度，並且已經稱爲JSR 173標準（http://www.jcp.org/en/jsr/detail?id=173）。目前，StAX最好的開源實現是Woodstox（http://woodstox.codehaus.org/），它完整地支持StAX API。Resin3.1也內置了StAX的實現，但是並沒有支持所以的StAX API。XFire在ClassPath上如果找到了StAX API的定義，就會試圖定位一個StAX的實現。

參考資料:
An Introduction to StAX
Having Good SAX with Java

發佈了51 篇原創文章 · 獲贊 6 · 訪問量 15萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

dubbo3.0 服務導入導出原理

不管是服務導出還是服務引入，都發生在應用啓動過程中，比如：在啓動類上加上 @EnableDubbo 時，該註解上有一個 @DubboComponentScan 註解，@DubboComponentScan 註解 Import 了一個 D

2024-04-09 23:17:11

ACK One x OpenKruiseGame 全球遊戲服多地域一致性交付最佳實踐

作者：劉秋陽、蔡靖前言在當今全球一體化的經濟環境下，數字娛樂產業正日益成爲文化和商業交流的有力代表。在此背景下大量遊戲廠商嘗試遊戲出海並取得了令人矚目的成績，許多遊戲以全球同服架構吸引着世界各地廣泛的玩家羣體。遊戲全球化部署不僅擴大了單

2024-04-30 21:12:18

告別手動調度，海豚調度器 3.1.x 集羣部署讓你輕鬆管理多機！

轉載自第一片心意 1 前言由於海豚調度器官網的集羣部署文檔寫的較亂，安裝過程中需要跳轉到很多地方進行操作，所以自己總結了一篇可以直接跟着從頭到尾進行操作的文檔，以方便後續的部署、升級、新增節點、減少節點的相關操作。 2. 提前準備 2.

2024-04-23 21:18:20

手動給docusaurus添加一個搜索

新版博客用docusaurus重構已經有些日子了，根據docusaurus的文檔上也申請了Algolia,想一勞永逸的解決博客的搜索問題。但是流水有意，落花無情。 algolia總是不給我回復，我只能對着algolia的申請頁面仰天長嘆。

2024-04-19 21:30:54

愛奇藝APP Android低端機性能優化

01 背景介紹在智能手機市場上，高端機型經常備受矚目，但低端機型亦佔據了不可忽視的份額。衆多廠商爲滿足低端市場的需求，不斷推出低配系列手機。另外過去幾年的中高端

2024-04-16 01:06:42

鴻蒙原生應用再新丁！企查查碧藍航線入局鴻蒙

鴻蒙原生應用再新丁！企查查碧藍航線入局鴻蒙來自 HarmonyOS 微博13日消息，碧藍航線將啓動鴻蒙原生應用開發，雙方將基於HarmonyOS NEXT鴻蒙星河版的原生流暢等特性，進一步提升遊戲流暢度和畫面精美度，爲用戶提供更

2024-04-13 23:06:23

Django+Daphne+Supervisor+Nginx web項目部署流程案例內網環境

Django Web項目部署流程大綱環境說明系統環境：Debian10 代碼運行環境：Python3.8 網絡服務器：Daphne（支持wsgi和asgi協議）反向代理：Nginx 進程管理：Supervisor 項目說明

2024-04-10 00:55:10

中間件漏洞攻防學習總結

前言面試常問的一些中間件，學習總結一下。以下環境分別使用vulhub和vulfocus復現。 Apache apache 文件上傳 (CVE-2017-15715) 描述: Apache(音譯爲阿帕奇)是世界使用排名第一的Web服務器

2024-04-09 22:46:34

O2OA(翱途)開發平臺-如何基於nginx上下文分發的方式快速集羣部署

O2OA(翱途)開發平臺[下稱O2OA開發平臺或者O2OA]使用分佈式架構設計，提供靈活的擴展方案用於對服務器的負載能力進行擴展，保障系統的高可用性。本篇主要介紹如何基於nginx上下文分發的方式快速集羣部署。 O2OA平臺應用結構

2024-04-08 22:24:58

ES6生成器，看似同步的異步流程控制表達風格

本文分享自華爲雲社區《3月閱讀周·你不知道的JavaScript | ES6生成器，看似同步的異步流程控制表達風格》，作者：葉一一。生成器打破完整運行 JavaScript開發者在代碼中幾乎普遍依賴的一個假定：一個函數一旦開始執行

2024-04-10 22:32:56

詳解數倉的向量化執行引擎

本文分享自華爲雲社區《GaussDB(DWS)向量化執行引擎詳解》，作者： yd_212508532。前言適用版本：【基線功能】傳統的行執行引擎大多采用一次一元組的執行模式，這樣在執行過程中CPU大部分時間並沒有用來處理數據，更

2024-04-25 10:33:17

短視頻文案提取原來如此簡單

結婚十年遊西湖過春風十里，盡薺麥青青。春天總是讓人舒坦，而今年的三月，也因爲與媳婦結婚十年，顯得格外不同。兩人奢侈的請了一天假，瞞着孩子，重遊西湖，去尋找13年前的冰棍店（給當時還是同事的她買了最貴的一個雪糕-8元），去尋

2024-04-22 23:33:29

從一次 RPC 請求，探索 MOSN 的工作流程

SOFA 六週年，歡迎來玩本週六 4.20 上海螞蟻集團 S 空間掃碼免費報名活動，來與 MOSN 社區負責人線下交流～ MOSN 社區歡迎您的加入！ MOSN 官網：https://mosn.io/ MOSN Github：http

2024-04-18 22:46:41

JSON Stream

1. 需求背景在日常開發中經常會遇到大對象或者大文件處理, 比如在nodejs開發中, 一個算法包可能範圍了一個長度爲好幾萬長度的一個對象, 這個對象使用Restful API不好傳遞, 肯定會把這個處理結果保存爲文件, 然後通過通過文件

2024-04-12 23:17:15

Ascend C 自定義算子 Kernel Launch調用入門

本文分享自華爲雲社區《Ascend C 自定義算子 Kernel Launch調用入門》，作者： jackwangcumt。 1 Kernel Launch概述根據官方說明文檔的介紹，Ascend C對外開放核函數的基礎調用（Kerne

2024-04-09 10:32:17

24小時熱門文章

最新文章

最新評論文章