Scrapy學習1

Scrapy學習1

一、創建項目

cmd中代碼
scrapy startproject xxxxSpider(項目名)

二、創建爬蟲

#切換目錄
cd xxxxSpider
#創建爬蟲
scrapy genspider xxxx(爬蟲名) xxxx.com(網站域名)
注意:項目名和爬蟲名不同

1、配置settings.py

#不遵守君子協議
#Obey robots.txt rules
ROBOTSTXT_OBEY = False

2、解釋spiders/xxxx.py

# -*- coding: utf-8 -*-
import scrapy

#創建爬蟲類 並繼承自scrapy.Spider -->最基礎的類
class XicidailiSpider(scrapy.Spider):
    name = 'xicidaili'
    allowed_domains = ['xicidaili.com']
    start_urls = ['http://xicidaili.com/']

    #解析響應數據 提取數據或網址 response是網頁源碼
    def parse(self, response):
        pass

三、分析網站

提取數據
正則表達式
XPath
CSS

response.xpath('//tr')。get()

get()得到一個元素
getall()得到多個元素

四、運行爬蟲

scrapy crawl xxxx

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章