JSoup java爬蟲開發學習

原創

2019-06-25 01:18

因某需求，需要使用java從網頁上爬取一些數據來使用，花了點時間看了一下JSoup,簡單介紹一下

jsoup is a Java library for working with real-world HTML. It provides a very convenient API for extracting and manipulating data, using the best of DOM, CSS, and jquery-like methods. Java HTML Parser官網

譯：jsoup是一個用於處理實際HTML的Java庫。它提供了一個非常方便的API來提取和操作數據，使用最好的DOM、CSS和類jquery方法。

簡單來說就是可以使用這個jsoup庫根據HTML標籤元素來定位你想要的數據，下面直接切入主題學習使用JSoup.

一、導入所需jar包

本文寫作時使用的maven文件，如需下載jar包，文低引用2中有相關下載鏈接

<dependency>
  <!-- jsoup HTML parser library @ https://jsoup.org/ -->
  <groupId>org.jsoup</groupId>
  <artifactId>jsoup</artifactId>
  <version>1.12.1</version>
</dependency>

二、main測試

1.讀取超鏈接URL（本文測試這一種方式，欲使用他方式請參考引用3），簡單點，就去訪問百度的首頁面

        try {
            //首先，通過工具類連接上URL
            Document doc = Jsoup.connect("https://www.baidu.com/").get();
            //通過文檔獲取標題信息
            String title = doc.title();
            System.out.println(title);
        } catch (IOException e) {
            e.printStackTrace();
        }

打印內容：

2.獲取<a>標籤的URL及文本

        try {
            Document doc = Jsoup.connect("https://www.baidu.com/").get();
            /*獲取URL的鏈接*/
            Elements links = doc.select("a[href]");
            for (Element link : links) {
                System.out.println("link : " + link.attr("href"));
                System.out.println("text : " + link.text());
            }
        } catch (IOException e) {
            e.printStackTrace();
        }

打印內容（部分）：

引用：1.Java HTML Parser 2. jsoup Cookbook(中文版) 3.易百教程

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

JSoup java爬蟲開發學習

一、導入所需jar包

二、main測試

1.讀取超鏈接URL（本文測試這一種方式，欲使用他方式請參考引用3），簡單點，就去訪問百度的首頁面

2.獲取<a>標籤的URL及文本

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

公衆號5月C#/.NET熱文一覽

git 下載大陸鏡像地址

基於JSoup庫的java爬蟲開發學習——小步快跑

tomcat和solr的整合——小步快跑

圖數據庫基礎

java桌面應用開發 - javaFx (從0-1 小步快跑)

Java開發文檔Swagger的使用詳細教程

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結