利用scrapy也爬過幾個網站了,今天將scrapy的從新建項目到完成網頁的爬取的相關內容梳理下
創建scrapy工程
在想創建文件的地方利用power shell或者命令提示符輸入一下命令
scrapy startproject douban #其中douban是項目名稱,可以隨意
等待系統生成scrapy文件,用pycharm(pycharm的用法,比如配置虛擬環境等就不過多介紹)打開剛纔的項目,項目結構爲
現在一項項的分析:
- __init__.py是scrapy的初始文件,一般不用管;
- items.py是準備爬取網頁時的定義元素的地方,比如爬豆瓣讀書時定義書名,作者等;
- middlerwares.py 是中間件,用來處理scrapy在運行過程中的一些問題,此處先不考慮;
- piplines.py 按我自己的理解的地方就是處理你爬下來的東西,比如數據篩選,數據存儲什麼的;
- settings.py 是一些設置,後面會提到。
spider文件夾下新建一個doubanspider.py 文件(名字可以隨意)
打開它,沒錯什麼都沒有
這時需要給他添加東西
# -*- coding:utf-8 -*-
import scrapy
class DouBan(scrapy.Spider):#從Spider繼承
name = "doubanspider"#scrapy可以有多個spider,但spider的名字必須不能重複
def start_requests(self):
#設置需要開始的頁面
urls=[
'https://book.douban.com/tag/?view=type&icn=index-sorttags-all',
]
for url in urls:
yield scrapy.Request(url,callback=self.parse)
def parse(self,response):
pass
在項目的根目錄下創建一個start.py文件用來啓動爬蟲
在裏面加入
# -*- coding:utf-8 -*-
from scrapy import cmdline
cmdline.execute("scrapy crawl doubanspider".split()) #這個doubanspider就是前面提到的spider的名字
配置運行文件
在虛擬環境都配置好的情況下直接點擊箭頭所指的“Edit Configurations”出現下圖所示的界面。
點擊左上角的加號,在彈出的選框中選擇python,name想怎麼起就怎麼起,Script path就點後面的... 去找剛纔的start.py
好了到目前爲止框架搭的已經差不多了,已經可以啓動爬蟲(空的)了,
未完待更
最後貼上的我的github地址