Scrapy ：全站爬取文學文章

原創

2020-06-20 05:38

爬取網站：www.rensheng5.com

爬取內容：整站文章

爬取字段：名稱時間作者內容

保存：以每個文章的名稱命名保存爲txt

本次採用通用爬蟲爬網站：

環境：Ubuntu python3.7

在終端創建項目模板 CrawlSpider

重要的就是Rule正則表達式的構造

項目創建可見我的其他scrapy爬蟲，在此不再贅述

直接上主要代碼：

 rules = (
        Rule(LinkExtractor(allow=r'\w+/id-\d+.html'), callback='parse_item', follow=True),

    )

解析代碼：


        item['name'] = response.xpath('//div[@class="artview"]/h1/text()').extract_first()
        date = response.xpath('//div[@class="artinfo"]//text()').extract()
        item['date'] = ' '.join(date).split('點擊')[0].replace('\u3000', ' ').strip()
        content = response.xpath('//div[@class="artbody"]//p/text()').extract()
        item['content'] = ' '.join(content).replace('\u3000', '').replace('\r\n', ' ').strip()

settings設置：

將 ITEM_PIPELINES的註釋去掉

item設置：

設置三個字段；name date content

piplines設置：

這個主要是用於保存數據的代碼如下：

    def process_item(self, item, spider):
        filename = item['name']
        f = open(filename+'.txt', 'w', encoding='utf8')
        f.write(item['name']+'\n')
        f.write(item['date']+'\n')
        f.write(item['content'])
        f.close()
        return item

結果如下：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

scrapy-splash學習

材料清單 docker scrapy 當我們經常遇到js加載的頁面，用scrapy來抓取其實挺麻煩的。Splash是做來加載渲染後的頁面，可以支持scrapy使用。由於Splash和Scrapy都支持異步處理，而Selenium

大佬请带带我

2020-07-06 05:23:14

基於python的-scrapy框架的基本用法

# -*- coding:utf-8 -*- # spiders 該文件夾專門存放爬蟲文件 # items.py 用於存儲爬蟲的數據 # middlewares.py 用於處理爬蟲前的請求和響應,例如設置headers # pipeli

2020-07-06 04:33:05

學做網絡爬蟲【五】- Scrapy（框架）

學做網絡爬蟲【一】- 爬蟲原理學做網絡爬蟲【二】- 數據抓取(Requests) 學做網絡爬蟲【三】- 數據提取學做網絡爬蟲【四】- 動態HTML 佔位

2020-07-03 11:35:01

requests驗證代理

python requests設置代理有一坑：正確的設置方式： requests.get(url, proxies={'http': '11.11.11.11:111'}) requests.get(url, proxies={'htt

2020-07-03 00:45:03

scrapy源碼閱讀-UserAgentMiddleware

源碼閱讀如下： """Set User-Agent header per spider or use a default value from settings""" from scrapy import signals clas

2020-07-03 00:45:03

scrapy源碼解讀-RetryMiddleware

值得糾正的理解是：scrapy的重試產生時，雖然會馬上被消費，但是請求會重新走一遍調度器和下載中間件。所以中間件鏈上對應的邏輯會再執行一遍，不用擔心代理和USER_AGENT等等沒有切換 """ An extension to retr

2020-07-03 00:45:03

scrapy小細節

1.配置文件settings.py內一定要使用大寫變量名，不然from_crawler函數中的crawler.settings無法加載 2.回調函數將請求添加到調度器一定要用yield，而不是return 3.scrapy配置的優先級：

2020-07-03 00:45:03

scrapy爬蟲——給女朋友的天氣預報（簡單模板版）

郵箱設置在使用Python自動發送郵件之前，需要對我們的QQ郵箱進行簡單的配置，過程如下： 1.首先登陸QQ郵箱，選擇“賬戶”如下圖所示： 2.在賬戶頁面往下拉，看到“POP3/SMTP”設置，點擊開啓按鈕，如下圖所示： 3.彈出如

2020-06-27 23:35:39

Scrapy使用shell調試

使用shell嘗試爬取 $ scrapy shell https://www.zhipin.com/c101280100/ 2020-02-07 10:42:20 [scrapy.utils.log] INFO: Scrapy

2020-06-27 18:59:31

對習樂app的某課程的所有題目爬取

這學期就想把習樂題庫刷空，一直沒時間弄，期末來了，課少了，搞起來~ 習樂好像是一個一個學長寫的app，但是對不住了，增加了點垃圾數據，23333 思路： 1、手機或模擬器抓包，分析提交自測數據包、查看試卷數據包。

初学者_小铭

2020-06-26 23:44:29

利用Scrapy框架爬取csdn博客數據，並保存到excel

目錄結構 articleSpider.py from scrapy.selector import Selector from scrapy import Spider from firstscrapy.items import

2020-06-23 19:43:05

爬蟲請求urllib. parse模塊你知多少

from urllib import parse as p import urllib.request def use_urlparse(url): # 1、urlparse(url=,scheme=,allow_fra

2020-06-23 19:42:45

爬蟲請求requests模塊你應該知道的一些小祕密

import requests import random # 基本示例 def use_requset_get(): url = 'http://httpbin.org/get' response = reque

2020-06-23 19:42:45

創建Scrapy項目，Ubuntu 16.04 Python3.5 pip3

jhczz@vaio:~$ cd work/Python/Vietualenv/ jhczz@vaio:~/work/Python/Vietualenv$ virtualenv -p /usr/bin/python3.5 ENV3.5 R

2020-06-23 04:45:11

Python爬蟲03:Scrapy庫

Python爬蟲03:Scrapy庫Scrapy庫的示例程序Scrapy爬蟲示例1: 使用爬蟲發送請求創建並運行一個爬蟲項目使用`start_urls`屬性替代`start_requests()`方法指定起始請求Scrapy爬蟲示

2020-06-21 02:59:00

24小時熱門文章

最新文章

最新評論文章