【項目】房天下數據爬取

 

需求:

1,獲取所有的城市URL

2,獲取所有城市》新房URL

3,獲取所有城市》二手房URL

代碼邏輯:

》》基本創建,start.py啓動文件

from scrapy import cmdline

cmdline.execute("scrapy crawl sfw".split())

》》middlewares.py  -->隨機請求頭中間件

》》spiders-->fang6.py

  #允許爬取的域名範圍

allowed_domains = ['fang.com']

(1)def  A(self,response):

       獲取所有地區名、鏈接

(2)def  B(self,response):

      獲取地區--新房--名字、價格等所有數據

(3)def  C(self,response):  

  獲取地區--2手房--名字、價格等所有數據

》》items-->fang6.py連接,

》》items: 寫要爬取範圍名稱

      fang6:導入items.py,調用
           

from fang.items import (class)

   item = NewHouseItem(name=name,rooms=rooms)

 

》》pipelines-->數據存儲

def __init__(self):

def process_item(self, item, spider):

def close_spider(self):

》》

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章