scrapy时尚网站onylady图片分类爬虫

*本文在Windows+pycharm（Python3.5）+scrapy环境下完成爬虫工作。

一. scrapy原理及本文爬取思路简介：

1.scrapy经典原理图讲解：

Scrapy是一个用 Python 写的 Crawler Framework，是基于Twisted的异步处理框架，是纯python实现的快速,高层次的屏幕抓取和web抓取框架，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容或者各种图片。Scrapy提供了一个item pipeline ，来下载属于某个特定项目的图片。这条管道被称作图片管道，在ImagesPipeline
类中实现，可避免重新下载最近已经下载过的图片。下图显示了Scrapy的大体架构：

注意到图片中心是引擎控制着整个爬取工作的运行。Scrapy运行流程如下：

引擎打开一个网站(open a domain)，找到处理该网站的Spider并向该 spider请求第一个要爬取的URL(s)。
-引擎从Spider中获取到第一个要爬取的URL并在调度器(Scheduler)以Request调度。
引擎向调度器请求下一个要爬取的URL。
调度器返回下一个要爬取的URL给引擎，引擎将URL通过下载中间件(请求(request)方向)转发给下载器(Downloader)。
一旦页面下载完毕，下载器生成一个该页面的Response，并将其通过下载中间件(返回(response)方向)发送给引擎。
引擎从下载器中接收到Response并通过Spider中间件(输入方向)发送给Spider处理。
Spider处理Response并返回爬取到的Item及(跟进的)新的Request给引擎。
引擎将(Spider返回的)爬取到的Item给Item Pipeline，将(Spider返回的)Request给调度器。
(从第二步)重复直到调度器中没有更多的request，引擎关闭该网站。

2.本文爬取思路简介：

进入到onlylady网站图片网http://pic.onlylady.com/cate-10004_50_3.shtml
首先设定start_url(这里很方便直接设置了四个，50是最后一页，相当于程序设置倒着爬，这样便于四类统一)
我们爬完一页时候需要找到类别title，图片url（找到的是小图，程序中要设置调整图片大小），然后还要找到下一次要爬取的页的url链接。我这里是用火狐浏览器的原审查元素功能+firebug审查元素功能查看xpath表达式的。接着进入爬虫。

二.爬取流程及代码

1.爬取流程

-创建爬虫工程：cmd命令下进入你的某目录：
scrapy startproject jiandan
-创建爬虫文件jd
cd jiandan
scrapy genspider -t basic jd onlylady.com
看下生成的项目结构：

-开始编写程序啦：
设定初始start_url
编写spiders：主要完成新的url列表解析和图片链接解析。
编写图片管道：实现图片自动下载，缩略图下载，遇到错误非图片链接会自动抛弃，不重复下载的任务。（设置存储目录）
Setting：设置打开图片管道,设置存储位置，缩略图尺寸，ROBOTSTXT_OBEY = False等。
（下面附程序及下载结果，下载速度挺快的）

2.代码

items.py文件

import scrapy 
class JiandanItem(scrapy.Item):
    title = scrapy.Field()#类别，用来生成存储目录
    image_urls = scrapy.Field()  # 图片的链接
    images = scrapy.Field()#自动生成的存储图片url，图片hash和checksum

spiders的jd.py文件

# -*- coding: utf-8 -*-
import scrapy
from jiandan.items import JiandanItem
from scrapy.selector import Selector
from scrapy.linkextractors import LinkExtractor
from scrapy.http import HtmlResponse,Request
import logging#写不写都行，用来把log写入文件file_name

class jiandanSpider(scrapy.Spider):
    name = 'onlylady'#名字可调
    allowed_domains = ['onlylady.com']
    start_urls = ["http://pic.onlylady.com/cate-10004_50_3.shtml","http://pic.onlylady.com/cate-10009_50_3.shtml","http://pic.onlylady.com/cate-10011_50_3.shtml","http://pic.onlylady.com/cate-10060_50_3.shtml"]#初始的url，scrapy很方便强大吧
    def parse(self, response):
        imageurl=[]
        item = JiandanItem()
        item['title']=''.join(response.xpath('//head/title/text()').extract()[0])#根据xpath获取title，此处 ''.join()是为了在后面为图片自定义名称时使用,若不加''.join(),后面调用item['title']会得到Unicode码

        imageurl = response.xpath('//img/@src').extract()  # 提取图片链接
        item['image_urls']=[i.replace('375x375','985x695') for i in imageurl]#小图转大图链接
        # print 'image_urls',item['image_urls']
        yield item
        n_url = response.xpath('//a[@class="n"]//@href').extract_first()  # 翻页
        new_url = "http://pic.onlylady.com/" + str(n_url)#构造出下页的url
    # print 'new_url',new_url
        if new_url:
            yield scrapy.Request(new_url, callback=self.parse)#根据scrapy爬虫流程，回调函数用来把new_url传到调度器生成request
           # self.log("your log information")

pipelines.py

import os
import urllib
import scrapy
import json
import codecs
from scrapy.exceptions import DropItem
from scrapy.contrib.pipeline.images import ImagesPipeline
from scrapy.pipelines.images import ImagesPipeline
from jiandan import settings

class JiandanPipeline(object):#用来自定义图片存储
    def __init__(self):
        self.file = codecs.open('jiandan.json', 'w', encoding='utf-8')#title是中文，需转码#当运行scrapy crawl onlylady -o items.json后,数据默认保存为items.json,里面中文全为Unicode,重新打开或创建一个文件'jiandan.json',名称随意
    def process_item(self, item, spider):
        line = json.dumps(dict(item), ensure_ascii=False) + "\n"
        self.file.write(line)
        return item
    def spider_closed(self, spider):
        self.file.close()

class JiandanPipeline(ImagesPipeline):  # 继承ImagesPipeline这个类，实现这个功能
    def get_media_requests(self, item, info):  # 重写ImagesPipeline   get_media_requests方法
        for image_url in item['image_urls']:
            yield scrapy.Request(image_url,meta={'item':item})
    def item_completed(self, results, item, info):
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            raise DropItem("Item contains no images")
            #item['image_paths'] = image_paths
        return item

    def file_path(self, request, response=None, info=None):#自定义存储路径
        item = request.meta['item']  # 通过上面的meta传递过来item
        image_guid = request.url.split('/')[-1]
        filename = u'full/{0}/{1}'.format(item['title'], image_guid)#title为二级目录
        return filename

settings.py

BOT_NAME = 'jiandan'
SPIDER_MODULES = ['jiandan.spiders']
NEWSPIDER_MODULE = 'jiandan.spiders'
ROBOTSTXT_OBEY = False
LOG_FILE  ="file_name"#日志文件
ITEM_PIPELINES = {'jiandan.pipelines.JiandanPipeline': 300,
  'jiandan.pipelines.ImagesPipeline':1,
}#开启两个管道
#ITEM_PIPELINES = {'scrapy.contrib.pipeline.images.ImagesPipeline': 1}
IMAGES_STORE='f:\\onlylady'#设置自己的存储路径

#我在这里关闭缩略图功能了
'''IMAGES_THUMBS = {#缩略图的尺寸，设置这个值就会产生缩略图

    'small': (50, 50),

    'big': (200, 200),

}'''

-大功告成，cmd命令下 scrapy crawl onlylady
-爬取结果部分：

scrapy时尚网站onylady图片分类爬虫

一. scrapy原理及本文爬取思路简介：

1.scrapy经典原理图讲解：

2.本文爬取思路简介：

二.爬取流程及代码

1.爬取流程

2.代码

spark dataframe 新增一列遞增索引列

CNN的重點整理

BP原理與實現

深度學習與卷積神經網絡（直觀理解）

基礎分類算法小結（一）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結