因某需求,需要使用java從網頁上爬取一些數據來使用,花了點時間看了一下JSoup,簡單介紹一下
jsoup
is a Java library for working with real-world HTML. It provides a very convenient API for extracting and manipulating data, using the best of DOM, CSS, and jquery-like methods. Java HTML Parser官網譯:jsoup是一個用於處理實際HTML的Java庫。它提供了一個非常方便的API來提取和操作數據,使用最好的DOM、CSS和類jquery方法。
簡單來說就是可以使用這個jsoup庫根據HTML標籤元素來定位你想要的數據,下面直接切入主題學習使用JSoup.
一、導入所需jar包
本文寫作時使用的maven文件,如需下載jar包,文低引用2中有相關下載鏈接
<dependency>
<!-- jsoup HTML parser library @ https://jsoup.org/ -->
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.12.1</version>
</dependency>
二、main測試
1.讀取超鏈接URL(本文測試這一種方式,欲使用他方式請參考引用3),簡單點,就去訪問百度的首頁面
try {
//首先,通過工具類連接上URL
Document doc = Jsoup.connect("https://www.baidu.com/").get();
//通過文檔獲取標題信息
String title = doc.title();
System.out.println(title);
} catch (IOException e) {
e.printStackTrace();
}
打印內容:
2.獲取<a>標籤的URL及文本
try {
Document doc = Jsoup.connect("https://www.baidu.com/").get();
/*獲取URL的鏈接*/
Elements links = doc.select("a[href]");
for (Element link : links) {
System.out.println("link : " + link.attr("href"));
System.out.println("text : " + link.text());
}
} catch (IOException e) {
e.printStackTrace();
}
打印內容(部分):
引用:1.Java HTML Parser 2. jsoup Cookbook(中文版) 3.易百教程