一週搞定scrapy之2，僞裝成瀏覽器及用css提取數據

原創

2020-07-02 16:24

實現爬蟲的過程

request對象參數及含義

參數	說明
url	HTTP請求的網站
method	HTTP請求的方法，如“GET”
body	HTTP的請求體，類型爲str或unicode
headers	HTTP的請求體，字典型
cookies	請求的cookie值，字典型或列表型，可以實現自動登錄的效果
encoding	請求的編碼方式，默認爲utf-8
callback	指定回調函數，即確定頁面解析函數，默認爲parse（）
meta	字典類型，用於數據的傳遞
priority	請求的優先級，默認爲0，優先級高的請求優先下載
dont_filter	如果對同一個url多次提交相同請求，可以使用此項來忽略重複的請求，避免重複下載，默認爲false
errback	在處理請求時引發任何異常時調用的函數

只需要改一點點代碼就行了

加入headers就行

#-*-coding:utf-8-*-
from scrapy import Request
from scrapy.spiders import Spider
class HotSalesSpider(Spider):
    #定義爬蟲名稱
    name = 'hot'
    qidian_headers= {"User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 QQBrowser/9.3"}
    # #起始的URL列表
    # start_urls = ["https://www.qidian.com/rank/hotsales?style=1"]

    def start_requests(self):
        url = "https://www.qidian.com/rank/hotsales?style=1"
        yield Request(url,headers=self.qidian_headers,callback=self.parse)




    #解析函數
    def parse(self, response):
        #使用xpath定位到小說內容的div元素
        list_selector = response.xpath("//div[@class='book-mid-info']")
        #依次讀取每部小說的元素，從中獲取名稱、作者、類型和形式
        for one_selector in list_selector:
            #獲取小說名稱
            name = one_selector.xpath("h4/a/text()").extract()[0]
            #獲取作者
            author = one_selector.xpath("p[1]/a[1]/text()").extract()[0]
            #獲取類型
            type = one_selector.xpath("p[1]/a[2]/text()").extract()[0]
            #獲取形式（連載/完本）
            form = one_selector.xpath("p[1]/span/text()").extract()[0]
            #將爬取到的一部小說保存到字典中
            hot_dict = {"name":name,   #小說名稱
                     "author":author,  #作者
                     "type":type,      #類型
                     "form":form}      #形式
            #使用yield返回字典
            yield hot_dict

#-*-coding:utf-8-*-
from scrapy import Request
from scrapy.spiders import Spider#導入Spider類
class HotSalesSpider(Spider):
    #定義爬蟲名稱
    name = 'hotcss'
    #獲取初始Request
    def start_requests(self):
        url = "https://www.qidian.com/rank/hotsales?style=1"
        #生成請求對象，設置url，callback
        yield Request(url,callback=self.qidian_parse)
    # 使用CSS選擇器解析數據
    def qidian_parse(self, response):
        #使用css定位到小說內容的div元素，生成選擇器
        list_selector = response.css("[class='book-mid-info']")
        #依次讀取每部小說，從中獲取名稱、作者、類型和形式
        for one_selector in list_selector:
            #獲取小說名稱
            name = one_selector.css("h4>a::text").extract_first()
            #獲取作者
            author = one_selector.css(".author a::text").extract()[0]
            #獲取類型
            type = one_selector.css(".author a::text").extract()[1]
            #獲取形式（連載還是完本）
            form = one_selector.css(".author span::text").extract_first()
            #將爬取到的一部小說保存到字典中
            hot_dict = {"name":name,     #小說名稱
                        "author":author, #作者
                        "type":type,     #類型
                        "form":form}     #形式
            #使用yield返回字典
            yield hot_dict

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

一週搞定scrapy之2，僞裝成瀏覽器及用css提取數據

《日本蠟燭圖》讀書筆記 & 技術分析回測

《期貨-市場技術分析》讀書筆記

Python多線程編程深度探索：從入門到實戰

mongodb處理json數據很好

頂級 Javaer 都在用的 20 個類庫，真香！

[轉帖]cpupower

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

一週搞定scrapy之3，將爬取到的起點中文網信息保存到mysql

樹莓派控制超聲波和l298n代碼

win10環境下搭建yolov4環境及測試

一週搞定scrapy之2，僞裝成瀏覽器及用css提取數據

arduino超聲波避障小車代碼

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結