java爬蟲利器Jsoup的使用

原創

2023-03-25 00:19

java中支持的爬蟲框架有很多，比如WebMagic、Spider、Jsoup等。今天我們使用Jsoup來實現一個簡單的爬蟲程序，Jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來取出和操作數據。我們可以使用Jsoup快速地掌握爬取頁面數據的技巧。

Jsoup如此強大的關鍵在於Jsoup對常用的api做了很好的封裝，並且通俗易懂，小白上手也很快，下面就主要介紹下常用的對象及API，

網絡請求，jsoup封裝了http請求所涉及的幾乎所有api，在Jsoup.connect()方法返回的對象Connection對象中，封裝了http請求的常見操作。

比如cookie

Connection cookie(String k, String v);

Connection cookies(Map<String, String> cookieMap);

代理請求

Connection proxy(Proxy var1);

Connection proxy(String var1, int var2);

本次分享將實現的功能爲：利用Jsoup爬取某個搜索詞語的百度百科的介紹部分，之前的很多爬蟲文章都是分享的使用Python進行爬取，所以這次我們將用Java來做爬蟲。經過簡單的分析發現百度百科還是有些反爬機制的，所以這裏我們也可以分享下如何在爬蟲程序裏面添加代理IP進行數據爬取的過程。代碼實現過程如下：

import java.io.IOException;
import java.net.Authenticator;
import java.net.InetSocketAddress;
import java.net.PasswordAuthentication;
import java.net.Proxy;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;


public class Demo
{
    // 代理驗證信息
    final static String ProxyUser = "16WBSPUA";
    final static String ProxyPass = "524536";

    // 代理服務器(產品官網 www.16yun.cn)
    final static String ProxyHost = "t.16yun.cn";
    final static Integer ProxyPort = 31111;

    // 設置IP切換頭
    final static String ProxyHeadKey = "Proxy-Tunnel";


    public static String getUrlProxyContent(String url)
    {
        Authenticator.setDefault(new Authenticator() {
            public PasswordAuthentication getPasswordAuthentication()
            {
                return new PasswordAuthentication(ProxyUser, ProxyPass.toCharArray());
            }
        });
        // 設置Proxy-Tunnel
        Random random = new Random();
        int tunnel = random.nextInt(10000);
        String ProxyHeadVal = String.valueOf(tunnel);

        Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress(ProxyHost, ProxyPort));

        try
        {
            // 處理異常、其他參數
            Document doc = Jsoup.connect(url).timeout(3000).header(ProxyHeadKey, ProxyHeadVal).proxy(proxy).get();

            if(doc != null) {
                System.out.println(doc.body().html());
            }
        }
        catch (IOException e)
        {
            e.printStackTrace();
        }

        return null;
    }

    public static void main(String[] args) throws Exception
    {
        // 要訪問的目標頁面
        String targetUrl = "https://baike.baidu.com/";


        getUrlProxyContent(targetUrl);
    }
}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

java爬蟲利器Jsoup的使用

ci 404 問題總結

探祕Python爬蟲技術：王者榮耀英雄圖片爬取

BizDevOps全局建設思路：橫向串聯，縱向深化

MySQL 創建表後神祕消失？揭祕零寬字符陷阱

寫給職場新人｜從迷茫到屢獲殊榮的技術人成長之路

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結