爬虫进阶-----scrapy框架初探二

课堂复习

●1你要知道怎样创建一 个scrapy项目scrapy startproject xXX
●2你要知道怎么创建一个爬虫项目
。先要进入到scrapy这个路径下
。生成一个爬虫项目scrapy genspider demo xxx.com
。几个文件1>爬虫文件(allowed_ domains
start
urls开始的可以修改的parse函数写爬虫的逻辑xpath)
。返回的数据yield scrapy.Request(url=url,callback=None,meta=None)
。settings文件 LOG
LEVEL = 'WARNING’管道的注释LOG FILE ="./log.log’设置UA
。piplines处理数据(保存数据)
。logging保存一个文件
。items 可以自己定义字段。那么自己定义的地段需要在爬虫文件先导入然后使用,不使用则报错

loggin模块的使用

import scrapy
import logging
logger = logging. getLogger(__ name__)
class QbSpider(scrapy. Spider):
	name ='qb'
	allowed_ domains = [ ' qiushibaike.com'l
	start_ urls = ['http: //qiushibaike.com/ ' ]
	def parse(self, response) :
		for i in range(10) :
			item = {}
			item[ 'content'] = "haha"
			# logging. warning( item )
			logger . warning( item)
			yield item


pipeline文件
import logging
logger = logging. getLogger(__ name__ )
class MyspiderP
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章