Java 爬取 51job 數據
一、項目Maven環境配置
相關依賴 jar 包配置
<parent>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-parent</artifactId>
<version>2.0.2.RELEASE</version>
</parent>
<properties>
<java.version>1.8</java.version>
</properties>
<dependencies>
<!--SpringMVC-->
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-web</artifactId>
</dependency>
<!--SpringData Jpa-->
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-data-jpa</artifactId>
</dependency>
<!--MySQL連接包-->
<dependency>
<groupId>mysql</groupId>
<artifactId>mysql-connector-java</artifactId>
</dependency>
<!--WebMagic核心包-->
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-core</artifactId>
<version>0.7.3</version>
<exclusions>
<exclusion>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-log4j12</artifactId>
</exclusion>
</exclusions>
</dependency>
<!--WebMagic擴展-->
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-extension</artifactId>
<version>0.7.3</version>
</dependency>
<!--WebMagic對布隆過濾器的支持-->
<dependency>
<groupId>com.google.guava</groupId>
<artifactId>guava</artifactId>
<version>16.0</version>
</dependency>
<!--工具包-->
<dependency>
<groupId>org.apache.commons</groupId>
<artifactId>commons-lang3</artifactId>
</dependency>
</dependencies>
application.properties 配置文件
#DB Configuration:
spring.datasource.driverClassName=com.mysql.jdbc.Driver
spring.datasource.url=jdbc:mysql://127.0.0.1:3306/crawler
spring.datasource.username=root
spring.datasource.password=root
#JPA Configuration:
spring.jpa.database=MySQL
spring.jpa.show-sql=true
二、相關類
pojo 類
@Entity
public class JobInfo {
@Id
@GeneratedValue(strategy = GenerationType.IDENTITY)
private Long id;
private String companyName;
private String companyAddr;
private String companyInfo;
private String jobName;
private String jobAddr;
private String jobInfo;
private Integer salaryMin;
private Integer salaryMax;
private String url;
private String time;
... toString() 、 get/set()方法略
}
dao 類
public interface JobInfoDao extends JpaRepository<JobInfo,Long> {}
Service 類
public interface JobInfoService {
/**
* 保存工作信息
*
* @param jobInfo
*/
public void save(JobInfo jobInfo);
/**
* 根據條件查詢工作信息
*
* @param jobInfo
* @return
*/
public List<JobInfo> findJobInfo(JobInfo jobInfo);
}
ServiceImpl 類
@Service
public class JobInfoServiceImpl implements JobInfoService {
@Autowired
private JobInfoDao jobInfoDao;
// 查詢原有的數據
// 判斷數據庫是否有已存在的數據
// 如果存在,就執行更新
// 不存在,就執行新增
@Override
@Transactional
public void save(JobInfo jobInfo) {
// 根據查詢結果是否爲空
JobInfo param = new JobInfo();
param.setUrl(jobInfo.getUrl());
param.setTime(jobInfo.getTime());
// 執行查詢
List<JobInfo> list = this.findJobInfo(param);
// 判斷查詢結果是否爲空
if (list.size()==0){
// 如果查詢結果爲空,表示招聘信息數據不存在,或者已經更新了,需要新增或更新數據庫
this.jobInfoDao.saveAndFlush(jobInfo); // 新增或更新方法
}
}
@Override
public List<JobInfo> findJobInfo(JobInfo jobInfo) {
// 設置查詢條件
Example example = Example.of(jobInfo);
// 執行查詢
List list = this.jobInfoDao.findAll(example);
return list;
}
}
功能實現類 Task
@Component
public class JobProcessor implements PageProcessor {
private String url = "https://search.51job.com/list/000000,000000,0000,32%252C01,9,99,java,2,1.html?lang=c&stype=&postchannel=0000" +
"&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0" +
"&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=";
@Override
public void process(Page page) {
// 解析頁面,獲取招聘信息詳情的url地址
List<Selectable> list = page.getHtml().css("div#resultList div.el").nodes();
// 判斷獲取到的集合是否爲空
if (list.size()==0){
// 如果爲空,表示這是招聘詳情頁,解析頁面,獲取招聘詳情信息,保存數據
this.saveJobInfo(page);
}else {
// 如果不爲空,表示這是列表頁,解析出詳情頁的url地址,放到任務隊列中
for (Selectable selectable : list) {
// 獲取到url地址
String JobInfoUrl = selectable.links().toString();
// 把獲取到url地址放到任務隊列中
page.addTargetRequest(JobInfoUrl);
}
// 獲取下一列功能的url
String nextUrl = page.getHtml().css("div.p_in li.bk").nodes().get(1).links().toString();
// 把url放到任務隊列中
page.addTargetRequest(nextUrl);
}
}
/**
* 解析頁面,獲取招聘詳情信息,保存數據
* @param page
*/
private void saveJobInfo(Page page) {
// 創建招聘詳情對象
JobInfo jobInfo = new JobInfo();
// 解析頁面
Html html = page.getHtml();
// 獲取數據,封裝到對象中
// 公司名字
jobInfo.setCompanyName(html.css("div.cn p.cname a", "text").toString());
// 公司地址
String cAddr = Jsoup.parse(html.css("div.cn p.ltype", "text").toString()).text().replace("-","");
cAddr = cAddr.substring(0,6);
jobInfo.setCompanyAddr(cAddr);
// 公司信息
jobInfo.setCompanyInfo(Jsoup.parse(html.css("div.tmsg", "text").toString()).text());
// 工作名字
jobInfo.setJobName(html.css("div.cn h1", "text").toString());
// 工作地址
String jAddr = Jsoup.parse(html.css("div.bmsg").nodes().get(1).toString()).text();
// 部分公司暫沒有填寫公司詳細地址,得非空判斷
if (StringUtils.isBlank(jAddr)){
jobInfo.setJobAddr(jobInfo.getCompanyAddr());
}else {
jAddr = jAddr.replace("地圖","");
jobInfo.setJobAddr(jAddr);
}
// 工作信息
jobInfo.setJobInfo(Jsoup.parse(html.css("div.job_msg").toString()).text());
// 個人薪水
Integer[] salary = MathSalarys.getSalary(html.css("div.cn strong", "text").toString());
jobInfo.setSalaryMin(salary[0]);
jobInfo.setSalaryMax(salary[1]);
// 發佈時間
String time = Jsoup.parse(html.css("div.cn p.msg", "text").toString()).text();
int length = time.lastIndexOf("發佈");
jobInfo.setTime(time.substring(length-5,length));
// url地址
jobInfo.setUrl(page.getUrl().toString());
// 把結果保存起來,等待 ResultItem獲取 獲取
page.putField("jobInfo",jobInfo);
}
private Site site = Site.me()
.setCharset("gbk") // 設置字符集
.setTimeOut(10*1000) // 設置超時時間
.setRetrySleepTime(3000) // 設置重試時間的間隔
.setRetryTimes(3); // 設置重試次數
@Override
public Site getSite() {
return site;
}
@Autowired
private SpringDataPipeline pipeline;
// initialDelay:當任務啓動後,等等多久執行方法
// fixedDelay:每隔多久執行方法
@Scheduled(initialDelay = 1000,fixedDelay = 10000)
public void process(){
Spider.create(new JobProcessor())
.addUrl(url)
.setScheduler(new QueueScheduler().setDuplicateRemover(new BloomFilterDuplicateRemover(100000)))
.thread(10)
.addPipeline(pipeline)
.run();
}
}
這裏面用到了一個 統計工資的工具類 MathSalary
public class MathSalary {
/**
* 獲取薪水範圍
*
* @param salaryStr
* @return
*/
public static Integer[] getSalary(String salaryStr) {
//聲明存放薪水範圍的數組
Integer[] salary = new Integer[2];
//"500/天"
//0.8-1.2萬/月
//5-8千/月
//5-6萬/年
String date = salaryStr.substring(salaryStr.length() - 1, salaryStr.length());
//如果是按天,則直接乘以240進行計算
if (!"月".equals(date) && !"年".equals(date)) {
salaryStr = salaryStr.substring(0, salaryStr.length() - 2);
salary[0] = salary[1] = str2Num(salaryStr, 240);
return salary;
}
String unit = salaryStr.substring(salaryStr.length() - 3, salaryStr.length() - 2);
String[] salarys = salaryStr.substring(0, salaryStr.length() - 3).split("-");
salary[0] = mathSalary(date, unit, salarys[0]);
salary[1] = mathSalary(date, unit, salarys[1]);
return salary;
}
//根據條件計算薪水
private static Integer mathSalary(String date, String unit, String salaryStr) {
Integer salary = 0;
//判斷單位是否是萬
if ("萬".equals(unit)) {
//如果是萬,薪水乘以10000
salary = str2Num(salaryStr, 10000);
} else {
//否則乘以1000
salary = str2Num(salaryStr, 1000);
}
//判斷時間是否是月
if ("月".equals(date)) {
//如果是月,薪水乘以12
salary = str2Num(salary.toString(), 12);
}
return salary;
}
private static int str2Num(String salaryStr, int num) {
try {
// 把字符串轉爲小數,必須用Number接受,否則會有精度丟失的問題
Number result = Float.parseFloat(salaryStr) * num;
return result.intValue();
} catch (Exception e) {
}
return 0;
}
}
導出數據到數據庫相關類 Pipeline
@Component
public class SpringDataPipeline implements Pipeline {
@Autowired
private JobInfoService jobInfoService;
@Override
public void process(ResultItems resultItems, Task task) {
// 獲取我們封裝好的招聘詳情對象
JobInfo jobInfo = resultItems.get("jobInfo");
// 判斷我們的數據是否不爲空
if (jobInfo != null){
// 不爲空就保存到數據庫中
this.jobInfoService.save(jobInfo);
}
}
}
引導類 Application
@SpringBootApplication
@EnableScheduling// 開啓定時任務
public class Application {
public static void main(String[] args) {
SpringApplication.run(Application.class,args);
}
}
結果展示:
整理了以下,可能會出現以下問題,可自行修改
// String index out of range: -1: 存在部分字符串越界問題,應該是截取那裏除了問題
// Data too long for column 'job_addr' at row 1: 數據庫的字符集出錯,將數據庫數據類型換成了longtext 長度不用設置
// failed: connect timed out: 有可能是網絡問題,網絡不暢通會有超時的現象
// could not execute statement: 數據庫中有字段不允許爲空,而我們提交的數據中卻沒有提交該字段的值,就會造成這個異常。