模塊三 第二週 作業二 招標網站

1 問題描述

使用Scrapy框架,完成必聯網招標信息採集,採集字段:

在這裏插入圖片描述

2 解題提示

  1. 必聯網有些頁面需要登錄纔可以得到響應,需要手動登錄,並得到瀏覽器中的Cookie值,把Cookie加入到請求頭中
  2. 關於數據的提取,有些需要定製正則表達式,比如項目編號可能在詳細頁的文本中,用普通的XPath無法提取出來,這個需要多看幾個頁面,多做測試,分析數據格式
  3. 數據的持久化可以在管道文件中進行,以課程中講解的爲例,把招標信息保存到MySQL數據庫中
  4. 代理IP應該在下載中間件中進行設置,代理IP需要訪問第三方的接口,具體參照錄播中的步驟講解

3 評分標準

  1. 爬蟲可以對必聯網的招標數據進行採集 20分
  2. 數據提取的準確性,例如可以更有效的提取出招標編號 10分
  3. 代碼註釋,規範10分

4 要點解析

  • 註冊

在這裏插入圖片描述

  • cookie

在這裏插入圖片描述

5 實現步驟

  • 創建scrapy,spider

在這裏插入圖片描述

  • spider文件
import scrapy
import re
from copy import deepcopy


class TenderdataSpider(scrapy.Spider):
    name = 'tender_data'
    # 將ss.ebnew.com也添加進來,防止過濾
    allowed_domains = ['www.ebnew.com', 'ss.ebnew.com']
    # start_urls = ['http://www.ebnew.com/']
    # 數據庫中存儲的數據模式爲字典:sql_data
    sql_data = dict(
        projectcode='',  # 項目編號
        web='必聯網',  # 信息來源網站(例如:必聯網)
        keyword='',  # 關鍵字
        detail_url='',  # 招標詳細頁網址
        title='',  # 第三方網站發佈標題
        toptype='',  # 信息類型
        province='',  # 歸屬省份
        product='',  # 產品範疇
        industry='',  # 歸屬行業
        tendering_manner='',  # 招標方式
        publicity_date='',  # 招標公示日期
        expiry_date='',  # 招標截止時間
        )
    # 因爲其提交的方式是POST方式,其form_data按照網站的Form_Data存儲
    form_data = dict(
        infoClassCodes='',  #
        rangeTyp='',  #
        projectType='bid',  # 這個值不會變換,所以直接默認
        fundSourceCodes='',  #
        dateType='',  #
        startDateCode='',  #
        endDateCode='',  #
        normIndustry='',  #
        normIndustryName='',  #
        zone='',  #
        zoneName='',  #
        zoneText='',  #
        key='',  # 路由器用戶輸入的關鍵詞:
        pubDateType='',  #
        pubDateBegin='',  #
        pubDateEnd='',  #
        sortMethod='timeDesc',  # 這個值不會變換,所以直接默認
        orgName='',  #
        currentPage='',  # 當前頁面2

        )
    keyword_s = ['路由器', '變壓器']

    # 設置start_request
    def start_requests(self):
        # request需要提交表單
        for keyword in self.keyword_s:
            # 因爲多線程操作,在存儲上需要deepcopy
            form_data = deepcopy(self.form_data)
            form_data['key'] = keyword
            form_data['currentPage'] = '1'
            # 設置爲FormRequest而不是Request,因爲需要提交表單數據
            request = scrapy.FormRequest(
                url='http://ss.ebnew.com/tradingSearch/index.htm',
                formdata=form_data,
                # 將response提交給start_parse處理,拿到最大的頁碼
                callback=self.start_parse,
                )
            # 封裝form_data數據,因爲start_parse需要
            request.meta['form_data'] = form_data
            yield request

    # start_parse 找到所有的頁碼,然後將這些頁碼封裝在request中,提交給scheduler處理
    # 循環將所有的url一次傳遞給scheduler
    def start_parse(self, response):
        # 獲取包含最大頁碼的列表
        page_max_s = response.xpath('//form[@id="pagerSubmitForm"]/a/text()').extract()
        # re.match找到數字
        page_max = max([int(page_max) for page_max in page_max_s if re.match('\d+', page_max)])
        # 測試用
        # page_max = 2
        # 提交每一頁的表單到parse_page1
        for page in range(1,page_max + 1):
            # 先獲取表單數據,並且deepcopy
            form_data = deepcopy(response.meta['form_data'])
            # 表單提交的數據就是str:currentPage=''
            form_data['currentPage'] = str(page)
            request = scrapy.FormRequest(
                url='http://ss.ebnew.com/tradingSearch/index.htm',
                formdata=form_data,
                callback=self.parse_page1,
                )
            request.meta['form_data'] = form_data
            yield request

    # parse_page1將第一個頁面的xpath的list提取出來,並且保存一部分sql_data數據
    #  detail_url = '',      # 招標詳細頁網址
    #  title='',             # 第三方網站發佈標題
    #  toptype='',           # 信息類型
    #  province='',          # 歸屬省份
    #  product='',           # 產品範疇
    #  tendering_manner='',  # 招標方式
    #  publicity_date='',    # 招標公示日期
    #  expiry_date='',       # 招標截止時間
    def parse_page1(self, response):
        form_data = response.meta['form_data']
        # xpath所有的頁面div,其是一個列表
        div_x_s = response.xpath('//div[contains(@class,"abstract-box")]')
        for div_x in div_x_s:
            # 第一次引用class屬性,所以用self
            sql_data = deepcopy(self.sql_data)
            # sql_data['web']='必聯網',在class屬性中已經默認
            sql_data['detail_url'] = div_x.xpath('./div[1]/a/@href').extract_first()
            sql_data['toptype'] = div_x.xpath('./div[1]/i[1]/text()').extract_first()
            sql_data['title'] = div_x.xpath('./div[1]/a/text()').extract_first()
            sql_data['province'] = div_x.xpath('./div[2]/div[2]/p[2]/span[2]/text()').extract_first()
            sql_data['product'] = div_x.xpath('./div[2]/div[1]/p[2]/span[2]/text()').extract_first()
            sql_data['tendering_manner'] = div_x.xpath('./div[2]/div[1]/p[1]/span[2]/text()').extract_first()
            sql_data['publicity_date'] = div_x.xpath('./div[1]/i[2]/text()').extract_first()
            # 去掉'發佈日期:'
            sql_data['publicity_date'] = re.sub('[^0-9\-]', '', sql_data['publicity_date'])
            sql_data['expiry_date'] = div_x.xpath('./div[2]/div[2]/p[1]/span[2]/text()').extract_first()
            if sql_data['expiry_date']:
                sql_data['expiry_date'] = re.sub('[0-9]{2}[:][0-9]{2}[:][0-9]{2}', '', sql_data['expiry_date'])
            else:
                sql_data['expiry_date'] = ""
            sql_data['keyword'] = form_data.get('key')
            # print( sql_data['detail_url'],sql_data['toptype'],sql_data['title'])
            # 因爲page2是get請求,所以不需要FormRequest
            request = scrapy.Request(
                url=sql_data['detail_url'],
                callback=self.parse_page2,
                )
            # 將sql_data封裝在meta裏面,傳值
            request.meta['sql_data'] = sql_data
            # print(sql_data)
            yield request

    # 頁面2處理sql_data的其他部分數據
    # projectcode='',  # 項目編號
    # industry='',  # 歸屬行業
    def parse_page2(self, response):
        sql_data = response.meta['sql_data']
        # print(sql_data)
        sql_data['projectcode'] = response.xpath(
            '//ul[contains(@class,"ebnew-project-information")]/li[1]/span[2]/text()').extract_first()
        # 在頁面中使用正則找到項目編號
        if not sql_data['projectcode']:
            projectcode_find = re.findall(
                '(項目編碼|項目標號|採購文件編號|招標編號|項目招標編號爲|項目編號|競價文件編號|招標文件編號)[::]{0,1}\s{0,2}\n*(</span\s*>)*\n*(<span.*?>)*\n*(<u*?>)*\n*([a-zA-Z0-9\-_\[\]]{1,100})',
                response.body.decode('utf-8'))
            if projectcode_find:
                sql_data['projectcode'] = projectcode_find[0][4] if projectcode_find else ""
        sql_data['industry'] = response.xpath(
            '//ul[contains(@class,"ebnew-project-information")]/li[8]/span[2]/text()').extract_first()
        # sql_data是一個字典的時候,scrapy engine自動判斷將sql_data傳遞給pipeline
        yield sql_data


  • 中間件

在這裏插入圖片描述

  • 連接數據庫,存儲數據

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章