Scrapy 從入門到能爬（豆瓣讀書）

原創

Lex_lht

2020-02-22 15:17

利用scrapy也爬過幾個網站了，今天將scrapy的從新建項目到完成網頁的爬取的相關內容梳理下

創建scrapy工程

在想創建文件的地方利用power shell或者命令提示符輸入一下命令

scrapy startproject douban  #其中douban是項目名稱，可以隨意

等待系統生成scrapy文件，用pycharm（pycharm的用法，比如配置虛擬環境等就不過多介紹）打開剛纔的項目，項目結構爲

現在一項項的分析：

__init__.py是scrapy的初始文件，一般不用管；
items.py是準備爬取網頁時的定義元素的地方，比如爬豆瓣讀書時定義書名，作者等；
middlerwares.py 是中間件，用來處理scrapy在運行過程中的一些問題，此處先不考慮；
piplines.py 按我自己的理解的地方就是處理你爬下來的東西，比如數據篩選，數據存儲什麼的；
settings.py 是一些設置，後面會提到。

spider文件夾下新建一個doubanspider.py 文件(名字可以隨意)

打開它，沒錯什麼都沒有

這時需要給他添加東西

# -*- coding:utf-8 -*-
import scrapy
class DouBan(scrapy.Spider):#從Spider繼承
    name = "doubanspider"#scrapy可以有多個spider，但spider的名字必須不能重複
    def start_requests(self):
        #設置需要開始的頁面
         urls=[
            'https://book.douban.com/tag/?view=type&icn=index-sorttags-all',
        ]
        for url in urls:
            yield scrapy.Request(url,callback=self.parse)
    def parse(self,response):
        pass

在項目的根目錄下創建一個start.py文件用來啓動爬蟲

在裏面加入

# -*- coding:utf-8 -*-
from scrapy import cmdline
cmdline.execute("scrapy crawl doubanspider".split()) #這個doubanspider就是前面提到的spider的名字

配置運行文件

在虛擬環境都配置好的情況下直接點擊箭頭所指的“Edit Configurations”出現下圖所示的界面。

點擊左上角的加號，在彈出的選框中選擇python，name想怎麼起就怎麼起，Script path就點後面的... 去找剛纔的start.py

好了到目前爲止框架搭的已經差不多了，已經可以啓動爬蟲（空的)了，

未完待更

最後貼上的我的github地址

Lex_lht

發佈了28 篇原創文章 · 獲贊 26 · 訪問量 8萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Scrapy 從入門到能爬（豆瓣讀書）

創建scrapy工程

spider文件夾下新建一個doubanspider.py 文件(名字可以隨意)

在項目的根目錄下創建一個start.py文件用來啓動爬蟲

配置運行文件

關於jpg圖片的小知識

Python for 循環的 else從句

Python列表推導式if else及一些應用

Python/C API Python 調用C模塊

git 常用操作收集

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結