需求背景
SpringBoot用法:爬蟲框架集成
業務場景
以抓取“今日頭條”新聞舉例說明
技術點
1. 集成爬蟲框架webmagic(更多瞭解webmagic,可以去官方地址)
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-extension</artifactId>
<version>0.6.0</version>
</dependency>
WebMagic是一個簡單靈活的Java爬蟲框架。基於WebMagic,你可以快速開發出一個高效、易維護的爬蟲程序
特性:
- 簡單的API,可快速上手
- 模塊化的結構,可輕鬆擴展
- 提供多線程和分佈式支持
代碼演示
1. 項目目錄結構
2. pom.xml依賴組件
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<parent>
<groupId>com.md</groupId>
<artifactId>spring-boot2-parent</artifactId>
<version>0.0.1-SNAPSHOT</version>
<relativePath>../pom.xml</relativePath>
</parent>
<artifactId>spring-boot2-crawler</artifactId>
<packaging>jar</packaging>
<name>spring-boot2-crawler</name>
<description>Spring Boot, MVC, Rest API for App</description>
<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
<java.version>1.8</java.version>
</properties>
<dependencies>
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter</artifactId>
</dependency>
<!-- 構建成可運行的Web項目 -->
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-web</artifactId>
</dependency>
<dependency>
<groupId>net.sf.json-lib</groupId>
<artifactId>json-lib-ext-spring</artifactId>
</dependency>
<dependency>
<groupId>org.projectlombok</groupId>
<artifactId>lombok</artifactId>
<optional>true</optional>
</dependency>
<!-- webmagic 爬蟲工具類 -->
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-extension</artifactId>
<version>0.6.0</version>
</dependency>
<dependency>
<groupId>org.nlpcn</groupId>
<artifactId>nlp-lang</artifactId>
<version>1.7</version>
</dependency>
</dependencies>
<build>
<plugins>
<plugin>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-maven-plugin</artifactId>
</plugin>
</plugins>
</build>
</project>
3. 爬蟲核心解析類
MyPageProcessor:
package com.md.demo.crawler.test;
import java.util.List;
import org.nlpcn.commons.lang.finger.SimHashService;
import lombok.extern.slf4j.Slf4j;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.JsonPathSelector;
/**
* 官方地址:http://webmagic.io/
*
* WebMagic是一個簡單靈活的Java爬蟲框架。基於WebMagic,你可以快速開發出一個高效、易維護的爬蟲。
*
* @author Minbo
*
*/
@Slf4j
public class MyPageProcessor implements PageProcessor {
private Site site = Site.me();
@Override
public void process(Page page) {
// 這裏使用了jsonPath,因爲今日頭條返回的是json數據格式。如果是html內容,則使用xpath
// 第一層解析
String json = page.getRawText();
List<String> data = new JsonPathSelector("$.data").selectList(json);
// 第二層解析
for (int i = 0; i < data.size(); i++) {
String result = data.get(i);
// 文章ID
String item_id = new JsonPathSelector("$.item_id").select(result);
// 文章標題
String title = new JsonPathSelector("$.title").select(result);
// 是否有圖
String has_image = new JsonPathSelector("$.has_image").select(result);
// 文章來源
String source = new JsonPathSelector("$.source").select(result);
// 文章時間
String datetime = new JsonPathSelector("$.datetime").select(result);
// 一般是根據文章詳細內容生成內容指紋id,實現文章去重,這裏只是舉例說明拿了文章標題
// 更多閱讀我的博客文章:https://blog.csdn.net/hemin1003/article/details/82819489(【應用算法】信息流-推薦系統的去重策略)
String fPrintId = String.valueOf(new SimHashService().fingerprint(title));
log.info("");
log.info("---------->>> 提取文章主信息:");
log.info("文章ID item_id=" + item_id);
log.info("文章標題 title=" + title);
log.info("是否有圖 has_image=" + has_image);
log.info("文章來源 source=" + source);
log.info("文章時間 datetime=" + datetime);
log.info("內容指紋id fPrintId=" + fPrintId);
// webmagic官方還有很多案例,更多內容自行參考學習了,例如配置代理,自帶url去重、網頁去重等功能
// 官方文檔地址:http://webmagic.io/docs/zh/
}
}
public Site getSite() {
return MySite.getSit(site);
}
public static void main(String[] args) {
// 今日頭條/熱點數據url
Spider.create(new MyPageProcessor()).addUrl(
"https://m.toutiao.com/list/?tag=news_hot&ac=wap&count=20&format=json_raw&as=A1551E75BC4CF9C&cp=5E5C3CEFB9DCAE1&max_behot_time=1583123351&_signature=CXZIuwAAVy.txcPhjSEcTwl2SK&i=1583123351")
.thread(1).run();
}
}
MySite:
package com.md.demo.crawler.test;
import us.codecraft.webmagic.Site;
/**
* 模擬請求頭設置
*
* @author Minbo
*
*/
public class MySite {
// 設置請求頭
public static Site getSit(Site site) {
site.addHeader("Accept", "*/*");
site.addHeader("Accept-Encoding", "gzip, deflate, br");
site.addHeader("Accept-Language", "en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7,zh-TW;q=0.6,cy;q=0.5");
site.addHeader("Connection", "keep-alive");
site.addHeader("Cookie",
"uuid=\"w:6eeae48e765542f8816b14bd1a8803f2\"; tt_webid=6799537520192783879; csrftoken=3eb88bcad1818058de0e3c0ca8a3f6d1; W2atIF=1; _ga=GA1.2.2115719807.1583140719; _gid=GA1.2.359266539.1583140719; __tasessionId=tr7vk2kgh1583140721519");
site.addHeader("Host", "m.toutiao.com");
site.addHeader("Referer", "https://m.toutiao.com/?w2atif=1&channel=news_hot");
site.addHeader("Sec-Fetch-Dest", "empty");
site.addHeader("Sec-Fetch-Mode", "cors");
site.addHeader("Sec-Fetch-Site", "same-origin");
site.addHeader("Upgrade-Insecure-Requests", "1");
site.addHeader("User-Agent",
"Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1");
site.setTimeOut(60000);
site.setCharset("UTF-8");
site.setRetryTimes(2);
return site;
}
}
4. 文章去重工具類
TestNlp:
package com.md.demo.nlp.test;
import org.nlpcn.commons.lang.finger.FingerprintService;
import org.nlpcn.commons.lang.finger.SimHashService;
/**
* 指紋去重庫Github地址:https://github.com/hemin1003/nlp-lang
*
* 更多閱讀:https://blog.csdn.net/hemin1003/article/details/82819489(【應用算法】信息流-推薦系統的去重策略)
*
* @author Minbo
*/
public class TestNlp {
/**
* 任何一段信息文字,都可以對應一個不太長的隨機數,作爲區別它和其它信息的指紋(Fingerprint)。
* 只要算法設計的好,任何兩段信息的指紋都很難重複,就如同人類的指紋一樣。信息指紋在加密、信息壓縮和處理中有着廣泛的應用。
* 這裏的做法是文章抽取特徵詞,壓縮爲md5指紋。利用這些指紋進行hash去重。廣泛應用在搜索結果、推薦結果去重。
*/
public static void main(String[] args) {
String content = "卓爾防線繼續傷筋動骨 隊長梅方出場再補漏說起來卓爾隊長梅方本賽季就是個“補漏”的命!在中衛與右邊後衛間不停地輪換。如果不出意外,今天與廣州恆大一戰梅方又要換位置,這也是漢軍隊長連續三場比賽中的第三次換位。而從梅方的身上也可以看出,本賽季漢軍防線如此“折騰”,丟球多也不奇怪了。梅方自2009賽季中乙出道便一直司職中後衛,還曾入選過布拉澤維奇國奧隊,也是司職的中衛。上賽季,梅方與忻峯搭檔雙中衛幫助武漢卓爾隊中超成功,但誰知進入本賽季後從第一場比賽開始梅方便不斷因爲種種“意外”而居無定所。聯賽首戰江蘇舜天時,也是由於登貝萊受傷,朱挺位置前移,梅方臨危受命客串右邊後衛。第二輪主場與北京國安之戰梅方僅僅打了一場中衛,又因爲柯釗受罰停賽4輪而不得不再次到邊路“補漏”。隨着馬丁諾維奇被棄用,梅方一度成爲中衛首選,在與上海東亞隊比賽中,邱添一停賽,梅方與忻峯再度攜手,緊接着與申鑫隊比賽中移至邊路,本輪忻峯又停賽,梅方和邱添一成爲中衛線上最後的選擇。至於左右邊後衛位置,卓爾隊方面人選較多,羅毅、周恆、劉尚坤等人均可出戰。記者馬萬勇原標題:卓爾防線繼續傷筋動骨隊長梅方出場再補漏稿源:中新網作者:";
String content2 = "在中衛與右邊後衛間不停地輪換。卓爾防線繼續傷筋動骨 隊長梅方出場再補漏說起來卓爾隊長梅方本賽季就是個“補漏”的命!還曾入選過布拉澤維奇國奧隊,也是司職的中衛。上賽季,梅方與忻峯搭檔雙中衛幫助武漢卓爾隊中超成功,但誰知進入本賽季後從第一場比賽開始梅方便不斷因爲種種“意外”而居無定所。";
// 方式1
// String f1 = new FingerprintService().fingerprint(content);
// String f2 = new FingerprintService().fingerprint(content2);
// System.out.println(f1);
// System.out.println(f2);
// System.out.println(f1.equals(f2));
// 方式2
SimHashService service = new SimHashService();
String f3 = String.valueOf(service.fingerprint(content));
String f4 = String.valueOf(service.fingerprint(content2));
System.out.println(f3);
System.out.println(f4);
System.out.println(f3.equals(f4));
// System.out.println(service.hmDistance(content, content2));
}
}
更多閱讀:【應用算法】信息流-推薦系統的去重策略
5. 計劃任務
ScheduledTasks:
package com.md.demo.task;
import org.springframework.scheduling.annotation.Scheduled;
import org.springframework.stereotype.Component;
import com.md.demo.crawler.test.MyPageProcessor;
import lombok.extern.slf4j.Slf4j;
import us.codecraft.webmagic.Spider;
@Component
@Slf4j
public class ScheduledTasks {
/**
* 每30秒執行一次
*/
@Scheduled(initialDelay = 5000, fixedDelay = 30000)
public void httTaskOfWechatPay() {
log.info("------------------------------------------------");
log.info("============爬蟲數據任務,start===================");
// TODO 在這裏,你可以把爬蟲做成執行計劃任務,或者動態執行計劃(通過db配置,或quartz框架,或XXL-job任務調度計劃框架)
log.info("開始爬蟲數據...");
log.info("處理處理...可以入庫db,或存入es中");
// 爬今日頭條/熱點數據url
Spider.create(new MyPageProcessor()).addUrl(
"https://m.toutiao.com/list/?tag=news_hot&ac=wap&count=20&format=json_raw&as=A1551E75BC4CF9C&cp=5E5C3CEFB9DCAE1&max_behot_time=1583123351&_signature=CXZIuwAAVy.txcPhjSEcTwl2SK&i=1583123351")
.thread(1).run();
log.info("爬蟲結束...done");
log.info("============爬蟲數據任務,end===================");
log.info("------------------------------------------------");
}
}
6. 啓動類
Application:
package com.md.demo;
import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
import org.springframework.context.annotation.Bean;
import org.springframework.scheduling.annotation.EnableScheduling;
import org.springframework.web.cors.CorsConfiguration;
import org.springframework.web.cors.UrlBasedCorsConfigurationSource;
import org.springframework.web.filter.CorsFilter;
/**
* 程序主入口
*
* @author Minbo
*
*/
@SpringBootApplication
@EnableScheduling
public class Application {
public static void main(String[] args) {
SpringApplication.run(Application.class, args);
}
/**
* 開啓過濾器功能
*
* @return
*/
private CorsConfiguration buildConfig() {
CorsConfiguration corsConfiguration = new CorsConfiguration();
corsConfiguration.addAllowedOrigin("*");
corsConfiguration.addAllowedHeader("*");
corsConfiguration.addAllowedMethod("*");
return corsConfiguration;
}
/**
* 跨域過濾器
*
* @return
*/
@Bean
public CorsFilter corsFilter() {
UrlBasedCorsConfigurationSource source = new UrlBasedCorsConfigurationSource();
source.registerCorsConfiguration("/**", buildConfig());
return new CorsFilter(source);
}
}
完整源碼下載
該系列教程
我的專欄
至此,全部介紹就結束了
-------------------------------
-------------------------------
關於我(個人域名)
期望和大家一起學習,一起成長,共勉,O(∩_∩)O謝謝
歡迎交流問題,可加個人QQ 469580884,
或者,加我的羣號 751925591,一起探討交流問題
不講虛的,只做實幹家
Talk is cheap,show me the code