JSoup java爬蟲開發學習

因某需求,需要使用java從網頁上爬取一些數據來使用,花了點時間看了一下JSoup,簡單介紹一下

jsoup is a Java library for working with real-world HTML. It provides a very convenient API for extracting and manipulating data, using the best of DOM, CSS, and jquery-like methods.  Java HTML Parser官網

譯:jsoup是一個用於處理實際HTML的Java庫。它提供了一個非常方便的API來提取和操作數據,使用最好的DOM、CSS和類jquery方法。

 簡單來說就是可以使用這個jsoup庫根據HTML標籤元素來定位你想要的數據,下面直接切入主題學習使用JSoup.

一、導入所需jar包

本文寫作時使用的maven文件,如需下載jar包,文低引用2中有相關下載鏈接

<dependency>
  <!-- jsoup HTML parser library @ https://jsoup.org/ -->
  <groupId>org.jsoup</groupId>
  <artifactId>jsoup</artifactId>
  <version>1.12.1</version>
</dependency>

二、main測試

1.讀取超鏈接URL(本文測試這一種方式,欲使用他方式請參考引用3),簡單點,就去訪問百度的首頁面

        try {
            //首先,通過工具類連接上URL
            Document doc = Jsoup.connect("https://www.baidu.com/").get();
            //通過文檔獲取標題信息
            String title = doc.title();
            System.out.println(title);
        } catch (IOException e) {
            e.printStackTrace();
        }

 打印內容:

 

2.獲取<a>標籤的URL及文本

        try {
            Document doc = Jsoup.connect("https://www.baidu.com/").get();
            /*獲取URL的鏈接*/
            Elements links = doc.select("a[href]");
            for (Element link : links) {
                System.out.println("link : " + link.attr("href"));
                System.out.println("text : " + link.text());
            }
        } catch (IOException e) {
            e.printStackTrace();
        }

打印內容(部分):

 

 

 

 

 

引用:1.Java HTML Parser    2. jsoup Cookbook(中文版)       3.易百教程

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章