Scrapy學習1
一、創建項目
cmd中代碼
scrapy startproject xxxxSpider(項目名)
二、創建爬蟲
#切換目錄
cd xxxxSpider
#創建爬蟲
scrapy genspider xxxx(爬蟲名) xxxx.com(網站域名)
注意:項目名和爬蟲名不同
1、配置settings.py
#不遵守君子協議
#Obey robots.txt rules
ROBOTSTXT_OBEY = False
2、解釋spiders/xxxx.py
# -*- coding: utf-8 -*-
import scrapy
#創建爬蟲類 並繼承自scrapy.Spider -->最基礎的類
class XicidailiSpider(scrapy.Spider):
name = 'xicidaili'
allowed_domains = ['xicidaili.com']
start_urls = ['http://xicidaili.com/']
#解析響應數據 提取數據或網址 response是網頁源碼
def parse(self, response):
pass
三、分析網站
提取數據
正則表達式
XPath
CSS
response.xpath('//tr')。get()
get()得到一個元素
getall()得到多個元素
四、運行爬蟲
scrapy crawl xxxx