1 問題描述
使用Scrapy框架,完成必聯網招標信息採集,採集字段:
2 解題提示
- 必聯網有些頁面需要登錄纔可以得到響應,需要手動登錄,並得到瀏覽器中的Cookie值,把Cookie加入到請求頭中
- 關於數據的提取,有些需要定製正則表達式,比如項目編號可能在詳細頁的文本中,用普通的XPath無法提取出來,這個需要多看幾個頁面,多做測試,分析數據格式
- 數據的持久化可以在管道文件中進行,以課程中講解的爲例,把招標信息保存到MySQL數據庫中
- 代理IP應該在下載中間件中進行設置,代理IP需要訪問第三方的接口,具體參照錄播中的步驟講解
3 評分標準
- 爬蟲可以對必聯網的招標數據進行採集 20分
- 數據提取的準確性,例如可以更有效的提取出招標編號 10分
- 代碼註釋,規範10分
4 要點解析
- 註冊
- cookie
5 實現步驟
- 創建scrapy,spider
- spider文件
import scrapy
import re
from copy import deepcopy
class TenderdataSpider(scrapy.Spider):
name = 'tender_data'
# 將ss.ebnew.com也添加進來,防止過濾
allowed_domains = ['www.ebnew.com', 'ss.ebnew.com']
# start_urls = ['http://www.ebnew.com/']
# 數據庫中存儲的數據模式爲字典:sql_data
sql_data = dict(
projectcode='', # 項目編號
web='必聯網', # 信息來源網站(例如:必聯網)
keyword='', # 關鍵字
detail_url='', # 招標詳細頁網址
title='', # 第三方網站發佈標題
toptype='', # 信息類型
province='', # 歸屬省份
product='', # 產品範疇
industry='', # 歸屬行業
tendering_manner='', # 招標方式
publicity_date='', # 招標公示日期
expiry_date='', # 招標截止時間
)
# 因爲其提交的方式是POST方式,其form_data按照網站的Form_Data存儲
form_data = dict(
infoClassCodes='', #
rangeTyp='', #
projectType='bid', # 這個值不會變換,所以直接默認
fundSourceCodes='', #
dateType='', #
startDateCode='', #
endDateCode='', #
normIndustry='', #
normIndustryName='', #
zone='', #
zoneName='', #
zoneText='', #
key='', # 路由器用戶輸入的關鍵詞:
pubDateType='', #
pubDateBegin='', #
pubDateEnd='', #
sortMethod='timeDesc', # 這個值不會變換,所以直接默認
orgName='', #
currentPage='', # 當前頁面2
)
keyword_s = ['路由器', '變壓器']
# 設置start_request
def start_requests(self):
# request需要提交表單
for keyword in self.keyword_s:
# 因爲多線程操作,在存儲上需要deepcopy
form_data = deepcopy(self.form_data)
form_data['key'] = keyword
form_data['currentPage'] = '1'
# 設置爲FormRequest而不是Request,因爲需要提交表單數據
request = scrapy.FormRequest(
url='http://ss.ebnew.com/tradingSearch/index.htm',
formdata=form_data,
# 將response提交給start_parse處理,拿到最大的頁碼
callback=self.start_parse,
)
# 封裝form_data數據,因爲start_parse需要
request.meta['form_data'] = form_data
yield request
# start_parse 找到所有的頁碼,然後將這些頁碼封裝在request中,提交給scheduler處理
# 循環將所有的url一次傳遞給scheduler
def start_parse(self, response):
# 獲取包含最大頁碼的列表
page_max_s = response.xpath('//form[@id="pagerSubmitForm"]/a/text()').extract()
# re.match找到數字
page_max = max([int(page_max) for page_max in page_max_s if re.match('\d+', page_max)])
# 測試用
# page_max = 2
# 提交每一頁的表單到parse_page1
for page in range(1,page_max + 1):
# 先獲取表單數據,並且deepcopy
form_data = deepcopy(response.meta['form_data'])
# 表單提交的數據就是str:currentPage=''
form_data['currentPage'] = str(page)
request = scrapy.FormRequest(
url='http://ss.ebnew.com/tradingSearch/index.htm',
formdata=form_data,
callback=self.parse_page1,
)
request.meta['form_data'] = form_data
yield request
# parse_page1將第一個頁面的xpath的list提取出來,並且保存一部分sql_data數據
# detail_url = '', # 招標詳細頁網址
# title='', # 第三方網站發佈標題
# toptype='', # 信息類型
# province='', # 歸屬省份
# product='', # 產品範疇
# tendering_manner='', # 招標方式
# publicity_date='', # 招標公示日期
# expiry_date='', # 招標截止時間
def parse_page1(self, response):
form_data = response.meta['form_data']
# xpath所有的頁面div,其是一個列表
div_x_s = response.xpath('//div[contains(@class,"abstract-box")]')
for div_x in div_x_s:
# 第一次引用class屬性,所以用self
sql_data = deepcopy(self.sql_data)
# sql_data['web']='必聯網',在class屬性中已經默認
sql_data['detail_url'] = div_x.xpath('./div[1]/a/@href').extract_first()
sql_data['toptype'] = div_x.xpath('./div[1]/i[1]/text()').extract_first()
sql_data['title'] = div_x.xpath('./div[1]/a/text()').extract_first()
sql_data['province'] = div_x.xpath('./div[2]/div[2]/p[2]/span[2]/text()').extract_first()
sql_data['product'] = div_x.xpath('./div[2]/div[1]/p[2]/span[2]/text()').extract_first()
sql_data['tendering_manner'] = div_x.xpath('./div[2]/div[1]/p[1]/span[2]/text()').extract_first()
sql_data['publicity_date'] = div_x.xpath('./div[1]/i[2]/text()').extract_first()
# 去掉'發佈日期:'
sql_data['publicity_date'] = re.sub('[^0-9\-]', '', sql_data['publicity_date'])
sql_data['expiry_date'] = div_x.xpath('./div[2]/div[2]/p[1]/span[2]/text()').extract_first()
if sql_data['expiry_date']:
sql_data['expiry_date'] = re.sub('[0-9]{2}[:][0-9]{2}[:][0-9]{2}', '', sql_data['expiry_date'])
else:
sql_data['expiry_date'] = ""
sql_data['keyword'] = form_data.get('key')
# print( sql_data['detail_url'],sql_data['toptype'],sql_data['title'])
# 因爲page2是get請求,所以不需要FormRequest
request = scrapy.Request(
url=sql_data['detail_url'],
callback=self.parse_page2,
)
# 將sql_data封裝在meta裏面,傳值
request.meta['sql_data'] = sql_data
# print(sql_data)
yield request
# 頁面2處理sql_data的其他部分數據
# projectcode='', # 項目編號
# industry='', # 歸屬行業
def parse_page2(self, response):
sql_data = response.meta['sql_data']
# print(sql_data)
sql_data['projectcode'] = response.xpath(
'//ul[contains(@class,"ebnew-project-information")]/li[1]/span[2]/text()').extract_first()
# 在頁面中使用正則找到項目編號
if not sql_data['projectcode']:
projectcode_find = re.findall(
'(項目編碼|項目標號|採購文件編號|招標編號|項目招標編號爲|項目編號|競價文件編號|招標文件編號)[::]{0,1}\s{0,2}\n*(</span\s*>)*\n*(<span.*?>)*\n*(<u*?>)*\n*([a-zA-Z0-9\-_\[\]]{1,100})',
response.body.decode('utf-8'))
if projectcode_find:
sql_data['projectcode'] = projectcode_find[0][4] if projectcode_find else ""
sql_data['industry'] = response.xpath(
'//ul[contains(@class,"ebnew-project-information")]/li[8]/span[2]/text()').extract_first()
# sql_data是一個字典的時候,scrapy engine自動判斷將sql_data傳遞給pipeline
yield sql_data
- 中間件
- 連接數據庫,存儲數據