Scrapy爬蟲框架總結

原創

嘭啦啦啦啦塵

2018-10-27 04:24

1.建立工程，生成spider模板。

通過命令建立模板：

E:\python\>scrapy startproject BaiduStocks #命令行中進入相應工程目錄下，新建以BaiduStocks爲名的工程

E:\python\>cd BaiduStocks #進入工程目錄

E:\python\>scrapy genspider stocks baidu.com #生成名爲stocks的爬蟲，在spider目錄下將看到stocks.py的文件

2.編寫一個spider爬蟲程序：處理鏈接爬取和網頁解析的功能

編寫與配置stocks.py文件，使其能夠處理返回頁面與新增爬取請求

下面是stocks建成後未修改的模板格式：

# -*- coding: utf-8 -*-
import scrapy

class StocksSpider(scrapy.Spider):
    name = "stocks"
    allowed_domains = ["baidu.com"]
    start_urls = ['http://baidu.com']

    def parse(self, response):
        pass

對其進行編寫。

3.編寫Item pipelines：處理解析後的股票數據，並將這些數據存儲到文件中

編寫pipelines，配置pipelines.py文件。定義對爬取項Scraped Item的處理類。

pipelines.py未修改前：

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

class BaiduxueshuPipeline(object):
     def process_item(self, item, spider):
         return item

4.修改配置文件settings.py

修改一個參數ITEM_PIPELINES，加入自己定義的內容

5.進入命令行執行程序：scrapy crawl stocks #stocks是自己定義的爬蟲名

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python爬取CSDN文章評論

最近在學習Python爬蟲，但沒有什麼完整的學習路線，就通過一些比較簡單的小實例來積累經驗，畢竟是爲了畢設而已。上次爬取了京東的商品評論（京東），這次來試着爬取CSDN的文章評論。以前爬取過CSDN文章的

2020-06-27 07:27:56

Python爬取京東商品評論（二）

上一篇博客中簡單實現了京東商品評論的爬蟲（Python爬取京東商品評論），由於這個爬蟲是我畢設的一部分，所以我需要對這個程序做一些補充，上一篇的程序中有許多不足的地方，下面我逐個解決。 1、首先是評論頁數的

2020-06-27 07:27:46

Python爬取京東商品評論

京東商城的頁面不是靜態頁面，其評論信息存放於json文件中，由ajax控制，所以我們在瀏覽器上看到的網頁源代碼和用Python爬下來的是不一樣的，所以我們真正要爬取的是評論數據所存放的json文件。首先打

2020-06-27 07:27:46

Python爬取豆瓣電影短評

豆瓣是比較難爬取的網站之一，主要因爲豆瓣默認如果不登錄賬號的話只能爬取10頁的評論。所以我就帶着cookie去爬取，而且設置了一個用戶代理池，儘可能的僞裝成瀏覽器。然而當我爬了三四次，一共幾十頁評論之後的第二天，我的豆瓣賬

2020-06-27 07:27:46

Python爬取NBA每日比賽比分

自從學會了爬蟲的基本用法之後，一些網頁上的基本信息都可以很容易的爬取下來。今天練習爬取了騰訊NBA官網上的每日賽程的比分，就是這個：這個網站的信息同樣是存儲在json文件中，在其HTML靜態文件中找不到

2020-06-27 07:27:46

#導出Python爬蟲工程所用的庫

使用cmd進入爬蟲工程所在文件夾，輸入指令 " pip freeze > 指定文件名.txt",按回車鍵即可在文件夾中生成所需庫的txt文件 pip freeze > requirements.text 安裝完之後，以後若需要在服

2020-06-21 09:12:08

Python爬蟲爬取糖堆網指定圖片

import urllib.parse import threading import requests import os # 設置最大線程鎖 thread_lock = threading.BoundedSemaphore(va

2020-06-21 08:31:04

# PyCharm 常用快捷鍵

編輯代碼的時候經常的要換下一行，但是光標沒有在行末，可以用這個命令直接換行：Shift+Enter 行註釋/取消行註釋： Ctrl+/ 塊註釋：Ctrl+Shift+/ 編碼過程中快速複製當前行，大大提升編碼效率：Crtl+D 自動縮進

2020-06-21 08:31:04

# 關於爬蟲常見HTTP基礎原理

請求方法（1）GET和POST請求方法有如下區別： GET請求中的參數包含在URL裏面，數據可以在URL中看到。而POST請求的URl不會包含這些數據，數據都是通過表單形式傳輸的，會包含在請求體中； GET請求提交的數據最多隻

2020-06-21 08:31:04

Python 爬取QQ音樂個人單曲排行榜

分析網頁成分，歌曲信息都存在圖中所示xhr中詳細代碼實現如下： import os import threading import jieba import numpy import html import requests i

2020-06-21 08:31:04

# 爬蟲requests的高級操作

requests高級操作目錄 1.cookie的處理 2.代理操作 3.驗證碼識別 4.模擬登陸一、cookie cookie是存儲在客戶端的一組鍵值對 cookie是由服務器端創建 cookie應用的簡單實例：免密登陸

2020-06-21 08:31:04

# scrapy框架基本使用

scrapy框架基本使用創建工程 scrapy startproject proName 進入工程目錄 cd proName 創建爬蟲文件 scrapy genspider spiderName www.xxx.com

2020-06-21 08:31:04

Python爬蟲實戰練習（疫情數據獲取）

一、國內疫情數據的爬取1.1 獲取響應1.2 使用xpath解析數據1.2.1 分析xpath解析的數據1.2.2 再一次分析數據1.3 json轉化xpath數據類型1.4 逐個獲取我們需要的數據，並保存至Excel中1.4.

2020-06-16 12:00:50

Python爬蟲之正則的基礎應用

1. 正則表達式基礎2. 正則表達式實戰2.1 實戰任務2.2 實戰準備2.3 校花網實戰 1. 正則表達式基礎正則基礎入門學習筆記，補充：貪婪模式：.* 非貪婪(惰性)模式：.*? 2. 正則表達式實戰 2.1 實

2020-06-13 23:20:45

Python爬蟲之Urllib的基礎運用

2020-06-02 16:57:02

24小時熱門文章

最新文章

最新評論文章