SpringBoot從入門到精通教程(三十一)- 爬蟲框架集成

需求背景

SpringBoot用法:爬蟲框架集成

業務場景

以抓取“今日頭條”新聞舉例說明

技術點

1. 集成爬蟲框架webmagic(更多瞭解webmagic,可以去官方地址

<dependency>
    <groupId>us.codecraft</groupId>
    <artifactId>webmagic-extension</artifactId>
    <version>0.6.0</version>
</dependency>

WebMagic是一個簡單靈活的Java爬蟲框架。基於WebMagic,你可以快速開發出一個高效、易維護的爬蟲程序

特性:

  1. 簡單的API,可快速上手
  2. 模塊化的結構,可輕鬆擴展
  3. 提供多線程和分佈式支持

代碼演示

1. 項目目錄結構

2. pom.xml依賴組件

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
	xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
	xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
	<modelVersion>4.0.0</modelVersion>

	<parent>
		<groupId>com.md</groupId>
		<artifactId>spring-boot2-parent</artifactId>
		<version>0.0.1-SNAPSHOT</version>
		<relativePath>../pom.xml</relativePath>
	</parent>

	<artifactId>spring-boot2-crawler</artifactId>
	<packaging>jar</packaging>

	<name>spring-boot2-crawler</name>
	<description>Spring Boot, MVC, Rest API for App</description>

	<properties>
		<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
		<java.version>1.8</java.version>
	</properties>

	<dependencies>
		<dependency>
			<groupId>org.springframework.boot</groupId>
			<artifactId>spring-boot-starter</artifactId>
		</dependency>
		<!-- 構建成可運行的Web項目 -->
		<dependency>
			<groupId>org.springframework.boot</groupId>
			<artifactId>spring-boot-starter-web</artifactId>
		</dependency>
		<dependency>
			<groupId>net.sf.json-lib</groupId>
			<artifactId>json-lib-ext-spring</artifactId>
		</dependency>
		<dependency>
			<groupId>org.projectlombok</groupId>
			<artifactId>lombok</artifactId>
			<optional>true</optional>
		</dependency>
		<!-- webmagic 爬蟲工具類 -->
		<dependency>
			<groupId>us.codecraft</groupId>
			<artifactId>webmagic-extension</artifactId>
			<version>0.6.0</version>
		</dependency>
		<dependency>
			<groupId>org.nlpcn</groupId>
			<artifactId>nlp-lang</artifactId>
			<version>1.7</version>
		</dependency>
	</dependencies>

	<build>
		<plugins>
			<plugin>
				<groupId>org.springframework.boot</groupId>
				<artifactId>spring-boot-maven-plugin</artifactId>
			</plugin>
		</plugins>
	</build>

</project>

3. 爬蟲核心解析類

MyPageProcessor:

package com.md.demo.crawler.test;

import java.util.List;

import org.nlpcn.commons.lang.finger.SimHashService;

import lombok.extern.slf4j.Slf4j;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.JsonPathSelector;

/**
 * 官方地址:http://webmagic.io/
 * 
 * WebMagic是一個簡單靈活的Java爬蟲框架。基於WebMagic,你可以快速開發出一個高效、易維護的爬蟲。
 * 
 * @author Minbo
 *
 */
@Slf4j
public class MyPageProcessor implements PageProcessor {

	private Site site = Site.me();

	@Override
	public void process(Page page) {
		// 這裏使用了jsonPath,因爲今日頭條返回的是json數據格式。如果是html內容,則使用xpath

		// 第一層解析
		String json = page.getRawText();
		List<String> data = new JsonPathSelector("$.data").selectList(json);
		// 第二層解析
		for (int i = 0; i < data.size(); i++) {
			String result = data.get(i);
			// 文章ID
			String item_id = new JsonPathSelector("$.item_id").select(result);
			// 文章標題
			String title = new JsonPathSelector("$.title").select(result);
			// 是否有圖
			String has_image = new JsonPathSelector("$.has_image").select(result);
			// 文章來源
			String source = new JsonPathSelector("$.source").select(result);
			// 文章時間
			String datetime = new JsonPathSelector("$.datetime").select(result);
			// 一般是根據文章詳細內容生成內容指紋id,實現文章去重,這裏只是舉例說明拿了文章標題
			// 更多閱讀我的博客文章:https://blog.csdn.net/hemin1003/article/details/82819489(【應用算法】信息流-推薦系統的去重策略)
			String fPrintId = String.valueOf(new SimHashService().fingerprint(title));

			log.info("");
			log.info("---------->>> 提取文章主信息:");
			log.info("文章ID item_id=" + item_id);
			log.info("文章標題 title=" + title);
			log.info("是否有圖 has_image=" + has_image);
			log.info("文章來源 source=" + source);
			log.info("文章時間 datetime=" + datetime);
			log.info("內容指紋id fPrintId=" + fPrintId);

			// webmagic官方還有很多案例,更多內容自行參考學習了,例如配置代理,自帶url去重、網頁去重等功能
			// 官方文檔地址:http://webmagic.io/docs/zh/
		}
	}

	public Site getSite() {
		return MySite.getSit(site);
	}

	public static void main(String[] args) {
		// 今日頭條/熱點數據url
		Spider.create(new MyPageProcessor()).addUrl(
				"https://m.toutiao.com/list/?tag=news_hot&ac=wap&count=20&format=json_raw&as=A1551E75BC4CF9C&cp=5E5C3CEFB9DCAE1&max_behot_time=1583123351&_signature=CXZIuwAAVy.txcPhjSEcTwl2SK&i=1583123351")
				.thread(1).run();
	}
}

MySite:

package com.md.demo.crawler.test;

import us.codecraft.webmagic.Site;

/**
 * 模擬請求頭設置
 * 
 * @author Minbo
 *
 */
public class MySite {

	// 設置請求頭
	public static Site getSit(Site site) {
		site.addHeader("Accept", "*/*");
		site.addHeader("Accept-Encoding", "gzip, deflate, br");
		site.addHeader("Accept-Language", "en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7,zh-TW;q=0.6,cy;q=0.5");
		site.addHeader("Connection", "keep-alive");
		site.addHeader("Cookie",
				"uuid=\"w:6eeae48e765542f8816b14bd1a8803f2\"; tt_webid=6799537520192783879; csrftoken=3eb88bcad1818058de0e3c0ca8a3f6d1; W2atIF=1; _ga=GA1.2.2115719807.1583140719; _gid=GA1.2.359266539.1583140719; __tasessionId=tr7vk2kgh1583140721519");
		site.addHeader("Host", "m.toutiao.com");
		site.addHeader("Referer", "https://m.toutiao.com/?w2atif=1&channel=news_hot");
		site.addHeader("Sec-Fetch-Dest", "empty");
		site.addHeader("Sec-Fetch-Mode", "cors");
		site.addHeader("Sec-Fetch-Site", "same-origin");
		site.addHeader("Upgrade-Insecure-Requests", "1");
		site.addHeader("User-Agent",
				"Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1");

		site.setTimeOut(60000);
		site.setCharset("UTF-8");
		site.setRetryTimes(2);
		return site;
	}
}

4. 文章去重工具類

TestNlp

package com.md.demo.nlp.test;

import org.nlpcn.commons.lang.finger.FingerprintService;
import org.nlpcn.commons.lang.finger.SimHashService;

/**
 * 指紋去重庫Github地址:https://github.com/hemin1003/nlp-lang
 * 
 * 更多閱讀:https://blog.csdn.net/hemin1003/article/details/82819489(【應用算法】信息流-推薦系統的去重策略)
 * 
 * @author Minbo
 */
public class TestNlp {

	/**
	 * 任何一段信息文字,都可以對應一個不太長的隨機數,作爲區別它和其它信息的指紋(Fingerprint)。
	 * 只要算法設計的好,任何兩段信息的指紋都很難重複,就如同人類的指紋一樣。信息指紋在加密、信息壓縮和處理中有着廣泛的應用。
	 * 這裏的做法是文章抽取特徵詞,壓縮爲md5指紋。利用這些指紋進行hash去重。廣泛應用在搜索結果、推薦結果去重。
	 */
	public static void main(String[] args) {
		
		String content = "卓爾防線繼續傷筋動骨 隊長梅方出場再補漏說起來卓爾隊長梅方本賽季就是個“補漏”的命!在中衛與右邊後衛間不停地輪換。如果不出意外,今天與廣州恆大一戰梅方又要換位置,這也是漢軍隊長連續三場比賽中的第三次換位。而從梅方的身上也可以看出,本賽季漢軍防線如此“折騰”,丟球多也不奇怪了。梅方自2009賽季中乙出道便一直司職中後衛,還曾入選過布拉澤維奇國奧隊,也是司職的中衛。上賽季,梅方與忻峯搭檔雙中衛幫助武漢卓爾隊中超成功,但誰知進入本賽季後從第一場比賽開始梅方便不斷因爲種種“意外”而居無定所。聯賽首戰江蘇舜天時,也是由於登貝萊受傷,朱挺位置前移,梅方臨危受命客串右邊後衛。第二輪主場與北京國安之戰梅方僅僅打了一場中衛,又因爲柯釗受罰停賽4輪而不得不再次到邊路“補漏”。隨着馬丁諾維奇被棄用,梅方一度成爲中衛首選,在與上海東亞隊比賽中,邱添一停賽,梅方與忻峯再度攜手,緊接着與申鑫隊比賽中移至邊路,本輪忻峯又停賽,梅方和邱添一成爲中衛線上最後的選擇。至於左右邊後衛位置,卓爾隊方面人選較多,羅毅、周恆、劉尚坤等人均可出戰。記者馬萬勇原標題:卓爾防線繼續傷筋動骨隊長梅方出場再補漏稿源:中新網作者:";
		String content2 = "在中衛與右邊後衛間不停地輪換。卓爾防線繼續傷筋動骨 隊長梅方出場再補漏說起來卓爾隊長梅方本賽季就是個“補漏”的命!還曾入選過布拉澤維奇國奧隊,也是司職的中衛。上賽季,梅方與忻峯搭檔雙中衛幫助武漢卓爾隊中超成功,但誰知進入本賽季後從第一場比賽開始梅方便不斷因爲種種“意外”而居無定所。";

		// 方式1
//		String f1 = new FingerprintService().fingerprint(content);
//		String f2 = new FingerprintService().fingerprint(content2);
//		System.out.println(f1);
//		System.out.println(f2);
//		System.out.println(f1.equals(f2));

		// 方式2
		SimHashService service = new SimHashService();
		String f3 = String.valueOf(service.fingerprint(content));
		String f4 = String.valueOf(service.fingerprint(content2));
		System.out.println(f3);
		System.out.println(f4);
		System.out.println(f3.equals(f4));

//		System.out.println(service.hmDistance(content, content2));
	}

}

更多閱讀:【應用算法】信息流-推薦系統的去重策略

5. 計劃任務

ScheduledTasks:

package com.md.demo.task;

import org.springframework.scheduling.annotation.Scheduled;
import org.springframework.stereotype.Component;

import com.md.demo.crawler.test.MyPageProcessor;

import lombok.extern.slf4j.Slf4j;
import us.codecraft.webmagic.Spider;

@Component
@Slf4j
public class ScheduledTasks {

	/**
	 * 每30秒執行一次
	 */
	@Scheduled(initialDelay = 5000, fixedDelay = 30000)
	public void httTaskOfWechatPay() {
		log.info("------------------------------------------------");
		log.info("============爬蟲數據任務,start===================");

		// TODO 在這裏,你可以把爬蟲做成執行計劃任務,或者動態執行計劃(通過db配置,或quartz框架,或XXL-job任務調度計劃框架)

		log.info("開始爬蟲數據...");
		log.info("處理處理...可以入庫db,或存入es中");

		// 爬今日頭條/熱點數據url
		Spider.create(new MyPageProcessor()).addUrl(
				"https://m.toutiao.com/list/?tag=news_hot&ac=wap&count=20&format=json_raw&as=A1551E75BC4CF9C&cp=5E5C3CEFB9DCAE1&max_behot_time=1583123351&_signature=CXZIuwAAVy.txcPhjSEcTwl2SK&i=1583123351")
				.thread(1).run();

		log.info("爬蟲結束...done");

		log.info("============爬蟲數據任務,end===================");
		log.info("------------------------------------------------");
	}

}

6. 啓動類

Application:

package com.md.demo;

import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
import org.springframework.context.annotation.Bean;
import org.springframework.scheduling.annotation.EnableScheduling;
import org.springframework.web.cors.CorsConfiguration;
import org.springframework.web.cors.UrlBasedCorsConfigurationSource;
import org.springframework.web.filter.CorsFilter;

/**
 * 程序主入口
 * 
 * @author Minbo
 *
 */
@SpringBootApplication
@EnableScheduling
public class Application {

	public static void main(String[] args) {
		SpringApplication.run(Application.class, args);
	}

	/**
	 * 開啓過濾器功能
	 * 
	 * @return
	 */
	private CorsConfiguration buildConfig() {
		CorsConfiguration corsConfiguration = new CorsConfiguration();
		corsConfiguration.addAllowedOrigin("*");
		corsConfiguration.addAllowedHeader("*");
		corsConfiguration.addAllowedMethod("*");
		return corsConfiguration;
	}

	/**
	 * 跨域過濾器
	 * 
	 * @return
	 */
	@Bean
	public CorsFilter corsFilter() {
		UrlBasedCorsConfigurationSource source = new UrlBasedCorsConfigurationSource();
		source.registerCorsConfiguration("/**", buildConfig());
		return new CorsFilter(source);
	}
}

完整源碼下載

我的Github源碼地址:

https://github.com/hemin1003/spring-boot-study/tree/master/spring-boot2-study/spring-boot2-parent/spring-boot2-crawler

該系列教程

SpringBoot從入門到精通教程

我的專欄

 

 

至此,全部介紹就結束了

 

 

-------------------------------

-------------------------------

 

我的CSDN主頁

關於我(個人域名)

我的開源項目集Github

 

期望和大家一起學習,一起成長,共勉,O(∩_∩)O謝謝

歡迎交流問題,可加個人QQ 469580884,

或者,加我的羣號 751925591,一起探討交流問題

不講虛的,只做實幹家

Talk is cheap,show me the code

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章