利用scrapy批量下载个人简历

1、前言

写这个程序和博客的原因，纯粹是出于无聊。上课老师不准我们带耳机，所以就看不了视频，学不了新知识。

所以，正想着马上毕业了，正好也需要个人简历来参加面试，我呢，又不想自己去下载，就只有写个程序来搞他了。

2、前景准备

2.1、工具

pycharm2020.1.1

python3.7

chrome

2.2、用到的工具库

scrapy，requests，os

2.3、实现思路

既然是批量下载，那么就需要每个网页的所有简历的url，我们就可以使用scrapy的yield推送网址解析。

3、步骤实现

3.1、分析网页源码

首先我们打开我们需要爬的网址：个人简历网

当然，这个网址里面的简历模板都是免费的。

然后，熟悉的打开我们的审查工具。瞅瞅我们需要的网址。我这儿用到的工具还有个xpath helper。能够在网页上运行xpath的工具。当然你们也可以不用下载，可以直接手写。

可以很清楚的看到，我们所有的列表都在这里面。

所以我们写xpath语法的时候就只需要获取ul下的li标签就行。

但是，我们是爬取全部的网页。所以就需要分析下一页。我们再审查一下元素

我们要是想要跳转下一页，也就是说需要去访问这个href标签的元素就能跳转到下一页了。

所以，开始敲代码。

3.2、源码分析

我们说过，要下载每一个简历，也就是需要去访问这个简历的网址。我们随便打开一个简历看看里面的构造。

我们可以很清楚的看到，这个下载按钮绑定的是一个href超链接，并且超链接里面的后缀是docx结尾的。

换句话说，我们直接去点击超链接就能直接下载下来。

3.3、代码实现

首先还是新建一个scrapy项目

scrapy startproject grjl
cd grjl
scrapy genspider gerenmuban http://www.gerenjianli.com/moban/

然后开始我们的代码

写之前还是要先配置一下settings.py


BOT_NAME = 'grjl'
SPIDER_MODULES = ['grjl.spiders']
NEWSPIDER_MODULE = 'grjl.spiders'
ROBOTSTXT_OBEY = False
DOWNLOAD_DELAY = 3
DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
    'User-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36"
}

因为下载文件的方式使用的requests请求，而不是文件管道，所以，这儿就不用配置pipelines.py文件

直接上源码吧

# -*- coding: utf-8 -*-
import scrapy
import requests
import os
class GerenmubanSpider(scrapy.Spider):
    name = 'gerenmuban'
    allowed_domains = ['http://www.gerenjianli.com/moban/']
    start_urls = ['http://www.gerenjianli.com/moban/']
    def parse(self, response):
        all_hrefs = response.xpath("//ul[@class='prlist']//li//a/@href").getall()
        for url in all_hrefs:
            yield scrapy.Request(url,callback=self.parse_download,dont_filter=True)
        next_page = response.xpath("//div[@class='Listpage']/a[last()-1]/@href").get()
        if next_page:
            yield scrapy.Request(next_page,callback=self.parse,dont_filter=True)
    def parse_download(self,response):
        download_url = response.xpath("//div[@class='donwurl2']/a/@href").get()
        yield scrapy.Request(download_url,callback=self.download,dont_filter=True)
    def download(self,response):
        name = str(response).split("_")[-1].replace(">","")
        url = str(response).split()[-1].replace(">","")
        docx = requests.get(url).content
        save_path = r"E:\PythonLearn\ReptileDemo\scrapyDemo\grjl\save_docx"
        folder = os.path.exists(save_path)
        if not folder:
            os.mkdir(save_path)
        with open(save_path+"\\"+name,"wb") as file:
            file.write(docx)

最后新建一个main文件去启动这个scrapy

from scrapy.cmdline import execute
execute("scrapy crawl gerenmuban".split())

运行效果：

我们随便打开一个看看：

ok，就这样完事儿了。

爬虫纯属爱好，不做任何违法请求。

谢谢观看。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

利用scrapy批量下载个人简历

1、前言

2、前景准备

2.1、工具

2.2、用到的工具库

2.3、实现思路

3、步骤实现

3.1、分析网页源码

3.2、源码分析

3.3、代码实现

如何使用 JS 判断用户是否处于活跃状态

Mono 支持LoongArch架构

lightdb秒级增加列和删除列（not null带默认值）

lightdb数据库超时相关控制参数

通过HPA+CronHPA组合应对业务复杂弹性伸缩场景

❤️‍🔥 Solon Cloud Event 新的事务特性与应用

网络爬虫的秘密：如何高效地抓取JD.com视频链接

lightdb mysql 8.0兼容之不可见主键

使用 JS 实现在浏览器控制台打印图片 console.image()

基于Ubuntu-22.04安装K8s-v1.28.2实验（四）使用域名访问网站应用

使用scrapy爬取前程無憂所有大數據崗位並做出數據可視化

利用scrapy批量下載個人簡歷

基於auto.js實現自動刷視頻

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結