XML學習筆記

W3C XML教程：https://www.w3school.com.cn/xml/index.asp

概念

Extensible Markup Language 可擴展標記語言

可擴展

標籤都是自定義的。

功能

存儲數據
- 配置文件
- 在網絡中傳輸

xml與html的區別

xml標籤都是自定義的，html標籤是預定義。
xml的語法嚴格，html語法鬆散
xml是存儲數據的，html是展示數據

w3c

萬維網聯盟

語法

基本語法

xml文檔的後綴名 .xml
xml第一行必須定義爲文檔聲明
xml文檔中有且僅有一個根標籤
屬性值必須使用引號(單雙都可)引起來
標籤必須正確關閉
xml標籤名稱區分大小寫

快速入門

<?xml version='1.0' ?>
		<users>
			<user id='1'>
				<name>zhangsan</name>
				<age>23</age>
				<gender>male</gender>
				<br/>
			</user>
			
			<user id='2'>
				<name>lisi</name>
				<age>24</age>
				<gender>female</gender>
			</user>
		</users>

組成部分

文檔聲明

格式：<?xml 屬性列表 ?>
屬性列表：
- version：版本號，必須的屬性
- encoding：編碼方式。告知解析引擎當前文檔使用的字符集，默認值：ISO-8859-1
- standalone：是否獨立
  - 取值：
    - yes：不依賴其他文件
    - no：依賴其他文件

指令（瞭解）

結合CSS的<?xml-stylesheet type="text/css" href="a.css" ?>

屬性

id屬性值唯一

文本

CDATA區：在該區域中的數據會被原樣展示
- 格式： <![CDATA[ 數據 ]]>

約束

規定xml文檔的書寫規則
作爲框架的使用者(程序員)：
- 能夠在xml中引入約束文檔
- 能夠簡單的讀懂約束文檔
分類
- DTD:一種簡單的約束技術
- Schema:一種複雜的約束技術

DTD

引入dtd文檔到xml文檔中
- 內部dtd：將約束規則定義在xml文檔中
- 外部dtd：將約束的規則定義在外部的dtd文件中
  - 本地：<!DOCTYPE 根標籤名 SYSTEM "dtd文件的位置">
  - 網絡：<!DOCTYPE 根標籤名 PUBLIC "dtd文件名字" "dtd文件的位置URL">

Schema

引入
- 填寫xml文檔的根元素
- 引入xsi前綴. xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
- 引入xsd文件命名空間. xsi:schemaLocation="http://www.it.cn/xml student.xsd"
- 爲每一個xsd約束聲明一個前綴,作爲標識
```
<students   xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
				xmlns="http://www.it.cn/xml"
				xsi:schemaLocation="http://www.it.cn/xml  student.xsd">
```

解析

操作xml文檔，將文檔中的數據讀取到內存中

操作xml文檔

解析(讀取)：將文檔中的數據讀取到內存中
寫入：將內存中的數據保存到xml文檔中。持久化的存儲

解析xml的方式

DOM：將標記語言文檔一次性加載進內存，在內存中形成一顆dom樹
- 優點：操作方便，可以對文檔進行CRUD的所有操作
- 缺點：佔內存
SAX：逐行讀取，基於事件驅動的。
- 優點：不佔內存。
- 缺點：只能讀取，不能增刪改

xml常見的解析器

JAXP：sun公司提供的解析器，支持dom和sax兩種思想
DOM4J：一款非常優秀的解析器
Jsoup：jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來取出和操作數據。
PULL：Android操作系統內置的解析器，sax方式的。

Jsoup

jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來取出和操作數據。

快速入門

步驟：
- 導入jar包
- 獲取Document對象
- 獲取對應的標籤Element對象
- 獲取數據

代碼：

	//2.1獲取student.xml的path
String path = JsoupDemo1.class.getClassLoader().getResource("student.xml").getPath();
	//2.2解析xml文檔，加載文檔進內存，獲取dom樹--->Document
Document document = Jsoup.parse(new File(path), "utf-8");
	//3.獲取元素對象 Element
Elements elements = document.getElementsByTag("name");
	
System.out.println(elements.size());
	//3.1獲取第一個name的Element對象
Element element = elements.get(0);
	//3.2獲取數據
String name = element.text();
System.out.println(name);

對象的使用

Jsoup

工具類，可以解析html或xml文檔，返回Document

parse：解析html或xml文檔，返回Document

parse(File in, String charsetName)：解析xml或html文件的。
parse(String html)：解析xml或html字符串
parse(URL url, int timeoutMillis)：通過網絡路徑獲取指定的html或xml的文檔對象

Document

文檔對象。代表內存中的dom樹

獲取Element對象

getElementById(String id)：根據id屬性值獲取唯一的element對象
getElementsByTag(String tagName)：根據標籤名稱獲取元素對象集合
getElementsByAttribute(String key)：根據屬性名稱獲取元素對象集合
getElementsByAttributeValue(String key, String value)：根據對應的屬性名和屬性值獲取元素對象集合

Elements

元素Element對象的集合。可以當做 ArrayList<Element>來使用

Element

元素對象

獲取子元素對象

getElementById(String id)：根據id屬性值獲取唯一的element對象
getElementsByTag(String tagName)：根據標籤名稱獲取元素對象集合
getElementsByAttribute(String key)：根據屬性名稱獲取元素對象集合
getElementsByAttributeValue(String key, String value)：根據對應的屬性名和屬性值獲取元素對象集合

獲取屬性值

String attr(String key)：根據屬性名稱獲取屬性值

獲取文本內容

String text():獲取文本內容
String html():獲取標籤體的所有內容(包括字標籤的字符串內容)

Node

節點對象
是Document和Element的父類

快捷查詢方式

selector:選擇器

使用的方法
```
Elements	select(String cssQuery)
```
語法
- 參考Selector類中定義的語法

XPath

XPath即爲XML路徑語言，它是一種用來確定XML（標準通用標記語言的子集）文檔中某部分位置的語言
使用Jsoup的Xpath需要額外導入jar包。
查詢w3cshool參考手冊：https://www.w3school.com.cn/w3c/w3c_xpath.asp，使用xpath的語法完成查詢

代碼：

				//1.獲取student.xml的path
		        String path = JsoupDemo6.class.getClassLoader().getResource("student.xml").getPath();
		        //2.獲取Document對象
		        Document document = Jsoup.parse(new File(path), "utf-8");
		
		        //3.根據document對象，創建JXDocument對象
		        JXDocument jxDocument = new JXDocument(document);
		
		        //4.結合xpath語法查詢
		        //4.1查詢所有student標籤
		        List<JXNode> jxNodes = jxDocument.selN("//student");
		        for (JXNode jxNode : jxNodes) {
		            System.out.println(jxNode);
		        }
		
		        System.out.println("--------------------");
		
		        //4.2查詢所有student標籤下的name標籤
		        List<JXNode> jxNodes2 = jxDocument.selN("//student/name");
		        for (JXNode jxNode : jxNodes2) {
		            System.out.println(jxNode);
		        }
		
		        System.out.println("--------------------");
		
		        //4.3查詢student標籤下帶有id屬性的name標籤
		        List<JXNode> jxNodes3 = jxDocument.selN("//student/name[@id]");
		        for (JXNode jxNode : jxNodes3) {
		            System.out.println(jxNode);
		        }
		        System.out.println("--------------------");
		        //4.4查詢student標籤下帶有id屬性的name標籤 並且id屬性值爲it
		
		        List<JXNode> jxNodes4 = jxDocument.selN("//student/name[@id='it']");
		        for (JXNode jxNode : jxNodes4) {
		            System.out.println(jxNode);
		        }

JavaWeb05_XML學習筆記_解析查詢html

XML學習筆記

概念

可擴展

功能

xml與html的區別

w3c

語法

基本語法

快速入門

組成部分

文檔聲明

指令（瞭解）

標籤

屬性

文本

約束

DTD

Schema

解析

操作xml文檔

解析xml的方式

xml常見的解析器

Jsoup

快速入門

代碼：

對象的使用

Jsoup

Document

Elements

Element

Node

快捷查詢方式

selector:選擇器

XPath