Scrapy 從入門到能爬(豆瓣讀書)

利用scrapy也爬過幾個網站了,今天將scrapy的從新建項目到完成網頁的爬取的相關內容梳理下

創建scrapy工程

在想創建文件的地方利用power shell或者命令提示符輸入一下命令

scrapy startproject douban  #其中douban是項目名稱,可以隨意

等待系統生成scrapy文件,用pycharm(pycharm的用法,比如配置虛擬環境等就不過多介紹)打開剛纔的項目,項目結構爲

現在一項項的分析:

  • __init__.py是scrapy的初始文件,一般不用管;
  • items.py是準備爬取網頁時的定義元素的地方,比如爬豆瓣讀書時定義書名,作者等;
  • middlerwares.py 是中間件,用來處理scrapy在運行過程中的一些問題,此處先不考慮;
  • piplines.py 按我自己的理解的地方就是處理你爬下來的東西,比如數據篩選,數據存儲什麼的;
  • settings.py 是一些設置,後面會提到。

spider文件夾下新建一個doubanspider.py 文件(名字可以隨意)

打開它,沒錯什麼都沒有

這時需要給他添加東西

# -*- coding:utf-8 -*-
import scrapy
class DouBan(scrapy.Spider):#從Spider繼承
    name = "doubanspider"#scrapy可以有多個spider,但spider的名字必須不能重複
    def start_requests(self):
        #設置需要開始的頁面
         urls=[
            'https://book.douban.com/tag/?view=type&icn=index-sorttags-all',
        ]
        for url in urls:
            yield scrapy.Request(url,callback=self.parse)
    def parse(self,response):
        pass

在項目的根目錄下創建一個start.py文件用來啓動爬蟲

在裏面加入

# -*- coding:utf-8 -*-
from scrapy import cmdline
cmdline.execute("scrapy crawl doubanspider".split()) #這個doubanspider就是前面提到的spider的名字

配置運行文件


在虛擬環境都配置好的情況下直接點擊箭頭所指的“Edit Configurations”出現下圖所示的界面。


點擊左上角的加號,在彈出的選框中選擇python,name想怎麼起就怎麼起,Script path就點後面的... 去找剛纔的start.py


好了到目前爲止框架搭的已經差不多了,已經可以啓動爬蟲(空的)了,

未完待更


最後貼上的我的github地址

發佈了28 篇原創文章 · 獲贊 26 · 訪問量 8萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章