爬蟲——多個url數據爬取

請求的手動發送

class SecondPipeline(object):
    f = None

    def open_spider(self,spider):
        print('start')
        self.f = open('./qiubai.text','w',encoding='utf-8')

    def process_item(self, item, spider):
        self.f.write(item['author']+':'+ item['content'])
        return item

    def close_spider(self,spider):
        self.f.close()
        print('end')

qiubai.py

import scrapy
from second.items import SecondItem


class QiubaiSpider(scrapy.Spider):
    name = 'qiubai'
    # allowed_domains = ['www.qiushibaike.com']
    start_urls = ['https://www.qiushibaike.com/text/']

    url = 'https://www.qiushibaike.com/text/page/%d/'
    pageNum = 1

    def parse(self, response):
        print('正在爬蟲')
        div_list = response.xpath("//div[@id='content-left']/div")
        for div in div_list:
            author = div.xpath('./div/a[2]/h2/text()').extract_first()
            content = div.xpath(".//div[@class='content']/span/text()").extract_first()

            items = SecondItem()
            items['author'] = author
            items['content'] = content

            yield items

        # 執行到此，第一個url已經獲取成功，
        # 手動添加url,yield scrapy.Request，
        # callback 函數解析,可以自定義，也可以再次利用parse，不加（）,遞歸加條件
        # url = 'https://www.qiushibaike.com/text/page/2/'
        # yield scrapy.Request(url=url, callback=self.parse)

        if self.pageNum <= 13:
            self.pageNum += 1
            new_url = format(self.url % self.pageNum)
            yield scrapy.Request(url=new_url, callback=self.parse)

小結：

多個url手動添加，callback函數執行
頁面佈局一致時，循環調用解析函數遞歸注意終止條件
yield scrapy.Request
注意面向對象數據屬性與實例化對象結合的特性！
format函數的使用

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

爬蟲——多個url數據爬取

請求的手動發送

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

HTML 00 Tutorial

全面系統的AI學習路徑，幫助普通人也能玩轉AI

從零開始：使用 Playwright 腳本錄製實現自動化測試

uni-app實現上拉加載

vue3編譯優化之“靜態提升”

又是一個月-20240513

常見問題（補充中）

列表和元組（更新後）

scrapy框架——持久化存儲

爬蟲——scrapy框架基礎

反思

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結