1.取出http網址
background-image:url(https://img-blog.csdn.net/20171116165413931)
img_rhef = div.xpath('').extract_first('')
img_href = img_hrefs.split('(')[-1]
img_href = img_hrefs.strip(')')
2.把圖片下載到本地
將首頁的圖片網址傳遞到下一個函數
yield scrapy.Request(url = url,meta={'img_href':img_href})
img_href = response.meta.get('img_href')
item = XXXXItem
item['src'] = [img_href]
同時在item中寫 src = scrapy.Field()
之後在settings中
ITEM_PIPELINES = {
'scrapy.pipelines.images.ImagesPipeline':1,
}
# item保存圖片地址的屬性
IMAGES_URLS_FIELD = 'src'
# 圖片保存的路徑
IMAGE_STORE = ‘images’
3.將網頁鏈接後的HTML下載到本地文件中,文件名:分類
同上:
'scrapy.pipelines.files.FilesPipeline':1
# item保存文件地址的屬性
FILES_URLS_FIELD = 'detail_url'
# 文件保存的路徑