Scrapy 入門實例

原創

2019-01-04 18:07

接觸Scrapy框架已經有一段時間，爲期的4個月的項目開發，讓我對該框架有一定的瞭解。

現在簡單介紹使用方法

Scrapy 官方中文檔： https://scrapy-chs.readthedocs.io/zh_CN/0.24/

下圖爲Scrapy 的文件目錄格式

weini ：該項目的python模塊。之後您將在此加入代碼。

weini/spiders：放置spider代碼的目錄.

weini/settings: 項目的設置文件. (具體參數設置可以參考官方文檔)

main.py: 腳本啓動

scrapy.cfg: 項目的配置文件

scrapy.cfg 文件主要配置項目模塊及項目的設置文件.

settings.py 可以設置對應的參數

下圖設置：

BOT_NAME ： Scrapy項目實現的bot的名字(也未項目名稱)

SPIDER_MODULES: Scrapy搜索spider的模塊列表

LOG_LEVEL: log的最低級別

main.py 執行對應的腳本，

demo_one：腳本名稱

-a**** : 向腳本傳遞參數

demo_one.py 腳本

定義好類後繼承Scrapy基類CrawSpider

name ：腳本名稱標示

_init_: 腳本初始化，在這裏我們可以對腳本運行時傳遞的參數進行處理

start_requests: 設置腳本運行後面的第一步，如爬取如圖網站

這裏採用的是 scrapy框架帶有請求

start_requests中參數設置：

header ：可以設置請求header （cookie值可以放在其中）

callback：請求成功後回調函數

dont_filter: scrapy 對於相同的請求會進行過濾，可設置該參數，請求重複訪問

簡單的爬蟲流程結束

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【Python】一篇文章讓你秒懂Scrapy爬蟲框架

前言本文來自嵩天老師《Python網絡爬蟲與信息提取》課程中關於Scrapy框架的介紹。這是我認爲對Scrapy框架講得最爲通俗易懂、條理清晰的教程。 Scrapy是一個爬蟲框架爬蟲框架是實現爬蟲功能的一個軟件結構和功能組件

2020-07-08 09:13:30

scrapy各組件詳解

Scrapy是一個爲了爬取網站數據，提取結構性數據而編寫的應用框架。可以應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中。其最初是爲了頁面抓取 (更確切來說, 網絡抓取 )所設計的，也可以應用在獲取API所返回的數據(例如

2020-07-07 13:29:11

response.replace(body=response.text.replace(‘\xa0‘,‘‘))，scrapy抓取網頁含\r \t \n \xa0時，修改response方法

xpath抓取數據值有\r\n\t時去掉的方法：https://blog.csdn.net/z564359805/article/details/101597953 抓取網頁含\r \t \n時,用normalize-space出現特殊符

执笔写回憶

2020-07-05 18:00:13

scrapy爬蟲小白入門學習--創建scrapy

創建scrapy項目第一步：在你想要創建的文件夾上面的搜索框輸入“cmd”然後回車第二步：輸入“scrapy startproject ArticleSpider”回車，完事兒。其中，scrapy startproject 這前

2020-07-04 15:29:19

菜鳥爬蟲——獲取安居客二手房信息

以安居客二手房爲例前言瞭解爬蟲爬蟲目錄結構爬蟲主體代碼items.py反反爬蟲策略運行爬蟲前言因爲需要一些二手房數據，菜鳥開啓了爬蟲之路！不過需要注意的是，在爬取數據時，要遵守《中華人民共和國網絡安全法》以及《規範互聯網信息服

2020-07-08 00:33:51

Python—scrapy redis超全源碼解析！

知識點，朋友們！Scrapy-redis的源碼解析connection.pydefaults.pydupefilter.pypicklecompat.pypipelines.pyqueue.pyscheduler.pyspider

2020-07-07 21:55:33

scrapy連接MySQL數據庫爬取英雄聯盟英雄傳記

作爲一位對聯盟遊戲的愛好者，學習爬蟲的時候也以這款遊戲作爲對象。這個項目使用的python版本：3.6.0，scrapy使用的版本：1.11。參照這篇博客即便是不會爬蟲的小白也可以帶你做出一個完整的scrapy項目。廢話不多說現在就開始吧

2020-07-07 13:29:11

Scrapy爬取大衆點評

內容：美食品類750個商家：商家的頁面url 商家的主要信息商家所有的促銷信息（1200+條）商家所有的評論信息（沒爬完，14w+條）發表這些評論的所有用戶的信息（沒爬完，5w+條）代碼：https://gi

2020-07-06 18:40:31

Ubuntu14.0 64bit 下Scrapy爬蟲框架的搭建

Ubuntu14.0 64bit 下Scrapy爬蟲框架的搭建 Python 2.7： Scrapy是Python框架，當然要先安裝Python ，不過由於Scrapy暫時只支持 Python2.7，因此首先確保你安裝的是P

2020-07-06 10:47:37

scrapy-splash學習

材料清單 docker scrapy 當我們經常遇到js加載的頁面，用scrapy來抓取其實挺麻煩的。Splash是做來加載渲染後的頁面，可以支持scrapy使用。由於Splash和Scrapy都支持異步處理，而Selenium

大佬请带带我

2020-07-06 05:23:14

基於python的-scrapy框架的基本用法

# -*- coding:utf-8 -*- # spiders 該文件夾專門存放爬蟲文件 # items.py 用於存儲爬蟲的數據 # middlewares.py 用於處理爬蟲前的請求和響應,例如設置headers # pipeli

2020-07-06 04:33:05

scrapy爬取知乎全站用戶信息，存入mongodb數據庫

源碼地址github，裏面有詳細註釋：https://github.com/15160200501/scrapy- 可以直接運行，不能運行的話，接口應該是換了工具：pycharm、python37、mongodb數據庫、數據庫可視化工具

致最长的电影

2020-07-05 05:57:35

一週搞定scrapy之3，將爬取到的起點中文網信息保存到mysql

安裝mysql 去mysql官網下載 https://dev.mysql.com/downloads/installer/ （除了這步要改一下，其餘的都是默認繼續）然後安裝路徑默認設置密碼，最後完成該之前的代碼 (以下是

2020-07-04 06:23:21

scrapy知網爬蟲項目-2（項目創建）

新建一個目錄文件開啓命令行進入該文件夾下輸入命令：scrapy startproject mySpider 創建的項目目錄如下： zhiwang/ scrapy.cfg zhiwang/ __i

我是菜鸟小白

2020-07-04 05:41:03

python爬取琳琅社區整站視頻（一晚6000部）

琳琅社區（傳聞中最受男人喜愛的網站），哼哼，我倒要看看是不是真的該項目用於爬取琳琅社區整站視頻（僅供學習）主要使用：python3.7 + scrapy2.19 + Mysql 8.0 + win10 首先確定需要爬取的內容

我的眼里只有bug

2020-07-03 18:32:28

24小時熱門文章

最新文章

最新評論文章