Scrapy:通用爬蟲CrawlSpider

原創

2020-06-20 03:12

爬取網站：http://example.python-scraping.com/

爬取字段：name population

爬取環境：Ubuntu python3.6

這個例子是學習通用爬蟲的案例，匹配規則經過我的改動，更加的直觀

主要代碼如下：

 rules = (
        Rule(LinkExtractor(allow=r'/places/default/index/', deny='/user'), follow=True),
        Rule(LinkExtractor(allow=r'view/', deny='/user'), callback='parse_item', follow=True)
    )

解析代碼：

item['name'] = response.xpath('//tr[@id="places_country_or_district__row"]//td[@class="w2p_fw"]/text()').extract()
        item['population'] = response.xpath('//tr[@id="places_population__row"]//td[@class="w2p_fw"]/text()').extract()

piplines保存數據:

    def process_item(self, item, spider):
        with open('info.txt', 'a', encoding='utf8')as f:
            f.write(str(item))
        return item

settings配置：去掉item pipline的註釋：

有些步驟省略了，可以參考的其他scrapy文檔

爬取記錄如下：

爬取內容如下：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

scrapy-splash學習

材料清單 docker scrapy 當我們經常遇到js加載的頁面，用scrapy來抓取其實挺麻煩的。Splash是做來加載渲染後的頁面，可以支持scrapy使用。由於Splash和Scrapy都支持異步處理，而Selenium

大佬请带带我

2020-07-06 05:23:14

基於python的-scrapy框架的基本用法

# -*- coding:utf-8 -*- # spiders 該文件夾專門存放爬蟲文件 # items.py 用於存儲爬蟲的數據 # middlewares.py 用於處理爬蟲前的請求和響應,例如設置headers # pipeli

2020-07-06 04:33:05

學做網絡爬蟲【五】- Scrapy（框架）

學做網絡爬蟲【一】- 爬蟲原理學做網絡爬蟲【二】- 數據抓取(Requests) 學做網絡爬蟲【三】- 數據提取學做網絡爬蟲【四】- 動態HTML 佔位

2020-07-03 11:35:01

requests驗證代理

python requests設置代理有一坑：正確的設置方式： requests.get(url, proxies={'http': '11.11.11.11:111'}) requests.get(url, proxies={'htt

2020-07-03 00:45:03

scrapy源碼閱讀-UserAgentMiddleware

源碼閱讀如下： """Set User-Agent header per spider or use a default value from settings""" from scrapy import signals clas

2020-07-03 00:45:03

scrapy源碼解讀-RetryMiddleware

值得糾正的理解是：scrapy的重試產生時，雖然會馬上被消費，但是請求會重新走一遍調度器和下載中間件。所以中間件鏈上對應的邏輯會再執行一遍，不用擔心代理和USER_AGENT等等沒有切換 """ An extension to retr

2020-07-03 00:45:03

scrapy小細節

1.配置文件settings.py內一定要使用大寫變量名，不然from_crawler函數中的crawler.settings無法加載 2.回調函數將請求添加到調度器一定要用yield，而不是return 3.scrapy配置的優先級：

2020-07-03 00:45:03

scrapy爬蟲——給女朋友的天氣預報（簡單模板版）

郵箱設置在使用Python自動發送郵件之前，需要對我們的QQ郵箱進行簡單的配置，過程如下： 1.首先登陸QQ郵箱，選擇“賬戶”如下圖所示： 2.在賬戶頁面往下拉，看到“POP3/SMTP”設置，點擊開啓按鈕，如下圖所示： 3.彈出如

2020-06-27 23:35:39

Scrapy使用shell調試

使用shell嘗試爬取 $ scrapy shell https://www.zhipin.com/c101280100/ 2020-02-07 10:42:20 [scrapy.utils.log] INFO: Scrapy

2020-06-27 18:59:31

對習樂app的某課程的所有題目爬取

這學期就想把習樂題庫刷空，一直沒時間弄，期末來了，課少了，搞起來~ 習樂好像是一個一個學長寫的app，但是對不住了，增加了點垃圾數據，23333 思路： 1、手機或模擬器抓包，分析提交自測數據包、查看試卷數據包。

初学者_小铭

2020-06-26 23:44:29

利用Scrapy框架爬取csdn博客數據，並保存到excel

目錄結構 articleSpider.py from scrapy.selector import Selector from scrapy import Spider from firstscrapy.items import

2020-06-23 19:43:05

爬蟲請求urllib. parse模塊你知多少

from urllib import parse as p import urllib.request def use_urlparse(url): # 1、urlparse(url=,scheme=,allow_fra

2020-06-23 19:42:45

爬蟲請求requests模塊你應該知道的一些小祕密

import requests import random # 基本示例 def use_requset_get(): url = 'http://httpbin.org/get' response = reque

2020-06-23 19:42:45

創建Scrapy項目，Ubuntu 16.04 Python3.5 pip3

jhczz@vaio:~$ cd work/Python/Vietualenv/ jhczz@vaio:~/work/Python/Vietualenv$ virtualenv -p /usr/bin/python3.5 ENV3.5 R

2020-06-23 04:45:11

Python爬蟲03:Scrapy庫

Python爬蟲03:Scrapy庫Scrapy庫的示例程序Scrapy爬蟲示例1: 使用爬蟲發送請求創建並運行一個爬蟲項目使用`start_urls`屬性替代`start_requests()`方法指定起始請求Scrapy爬蟲示

2020-06-21 02:59:00

24小時熱門文章

最新文章

最新評論文章