需求:
1,獲取所有的城市URL
2,獲取所有城市》新房URL
3,獲取所有城市》二手房URL
代碼邏輯:
》》基本創建,start.py啓動文件
from scrapy import cmdline
cmdline.execute("scrapy crawl sfw".split())
》》middlewares.py -->隨機請求頭中間件
》》spiders-->fang6.py
#允許爬取的域名範圍
allowed_domains = ['fang.com']
(1)def A(self,response):
獲取所有地區名、鏈接
(2)def B(self,response):
獲取地區--新房--名字、價格等所有數據
(3)def C(self,response):
獲取地區--2手房--名字、價格等所有數據
》》items-->fang6.py連接,
》》items: 寫要爬取範圍名稱
fang6:導入items.py,調用
from fang.items import (class)
item = NewHouseItem(name=name,rooms=rooms)
》》pipelines-->數據存儲
def __init__(self):
def process_item(self, item, spider):
def close_spider(self):
》》