1.取出http网址
background-image:url(https://img-blog.csdn.net/20171116165413931)
img_rhef = div.xpath('').extract_first('')
img_href = img_hrefs.split('(')[-1]
img_href = img_hrefs.strip(')')
2.把图片下载到本地
将首页的图片网址传递到下一个函数
yield scrapy.Request(url = url,meta={'img_href':img_href})
img_href = response.meta.get('img_href')
item = XXXXItem
item['src'] = [img_href]
同时在item中写 src = scrapy.Field()
之后在settings中
ITEM_PIPELINES = {
'scrapy.pipelines.images.ImagesPipeline':1,
}
# item保存图片地址的属性
IMAGES_URLS_FIELD = 'src'
# 图片保存的路径
IMAGE_STORE = ‘images’
3.将网页链接后的HTML下载到本地文件中,文件名:分类
同上:
'scrapy.pipelines.files.FilesPipeline':1
# item保存文件地址的属性
FILES_URLS_FIELD = 'detail_url'
# 文件保存的路径