java中支持的爬蟲框架有很多,比如WebMagic、Spider、Jsoup等。今天我們使用Jsoup來實現一個簡單的爬蟲程序,Jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似於jQuery的操作方法來取出和操作數據。我們可以使用Jsoup快速地掌握爬取頁面數據的技巧。
Jsoup如此強大的關鍵在於Jsoup對常用的api做了很好的封裝,並且通俗易懂,小白上手也很快,下面就主要介紹下常用的對象及API,
網絡請求,jsoup封裝了http請求所涉及的幾乎所有api,在Jsoup.connect()方法返回的對象Connection對象中,封裝了http請求的常見操作。
比如cookie
Connection cookie(String k, String v);
Connection cookies(Map<String, String> cookieMap);
代理請求
Connection proxy(Proxy var1);
Connection proxy(String var1, int var2);
本次分享將實現的功能爲:利用Jsoup爬取某個搜索詞語的百度百科的介紹部分,之前的很多爬蟲文章都是分享的使用Python進行爬取,所以這次我們將用Java來做爬蟲。經過簡單的分析發現百度百科還是有些反爬機制的,所以這裏我們也可以分享下如何在爬蟲程序裏面添加代理IP進行數據爬取的過程。代碼實現過程如下:
import java.io.IOException;
import java.net.Authenticator;
import java.net.InetSocketAddress;
import java.net.PasswordAuthentication;
import java.net.Proxy;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class Demo
{
// 代理驗證信息
final static String ProxyUser = "16WBSPUA";
final static String ProxyPass = "524536";
// 代理服務器(產品官網 www.16yun.cn)
final static String ProxyHost = "t.16yun.cn";
final static Integer ProxyPort = 31111;
// 設置IP切換頭
final static String ProxyHeadKey = "Proxy-Tunnel";
public static String getUrlProxyContent(String url)
{
Authenticator.setDefault(new Authenticator() {
public PasswordAuthentication getPasswordAuthentication()
{
return new PasswordAuthentication(ProxyUser, ProxyPass.toCharArray());
}
});
// 設置Proxy-Tunnel
Random random = new Random();
int tunnel = random.nextInt(10000);
String ProxyHeadVal = String.valueOf(tunnel);
Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress(ProxyHost, ProxyPort));
try
{
// 處理異常、其他參數
Document doc = Jsoup.connect(url).timeout(3000).header(ProxyHeadKey, ProxyHeadVal).proxy(proxy).get();
if(doc != null) {
System.out.println(doc.body().html());
}
}
catch (IOException e)
{
e.printStackTrace();
}
return null;
}
public static void main(String[] args) throws Exception
{
// 要訪問的目標頁面
String targetUrl = "https://baike.baidu.com/";
getUrlProxyContent(targetUrl);
}
}