13、web爬蟲講解2—Scrapy框架爬蟲—Scrapy爬取百度新聞，爬取Ajax動態生成的信息

原創

天降攻城獅

2019-07-02 10:35

【百度雲搜索，搜各種資料:http://www.bdyss.cn】

【搜網盤，搜各種資料:http://www.swpan.cn】

crapy爬取百度新聞，爬取Ajax動態生成的信息，抓取百度新聞首頁的新聞rul地址

有多網站，當你瀏覽器訪問時看到的信息，在html源文件裏卻找不到，由得信息還是滾動條滾動到對應的位置後才顯示信息，那麼這種一般都是 js 的 Ajax 動態請求生成的信息

我們以百度新聞爲列：

1、分析網站

首先我們瀏覽器打開百度新聞，在網頁中間部分找一條新聞信息

然後查看源碼，看看在源碼裏是否有這條新聞，可以看到源文件裏沒有這條信息，這種情況爬蟲是無法爬取到信息的

那麼我們就需要抓包分析了，啓動抓包軟件和抓包瀏覽器，前後有說過軟件了，就不在說了，此時我們經過抓包看到這條信息是通過Ajax動態生成的JSON數據，也就是說，當html頁面加載完成後才生成的，所有我們在源文件裏無法找到，當然爬蟲也找不到

我們首先將這個JSON數據網址拿出來，到瀏覽器看看，我們需要的數據是不是全部在裏面，此時我們看到這次請求裏只有 17條信息，顯然我們需要的信息不是完全在裏面，還得繼續看看其他js包

我們將抓包瀏覽器滾動條拉到底，以便觸發所有js請求，然後在繼續找js包，我們將所有js包都找完了再也沒看到新聞信息的包了

那信息就不在js包裏了，我們回頭在看看其他類型的請求，此時我們看到很多get請求響應的是我們需要的新聞信息，說明只有第一次那個Ajax請求返回的JSON數據，後面的Ajax請求返回的都是html類型的字符串數據，

我們將Ajax請求返回的JSON數據的網址和Ajax請求返回html類型的字符串數據網址，拿來做一下比較看看是否能找到一定規律，

此時我們可以看到，JSON數據的網址和html類型的字符串數據網址是一個請求地址，

只是請求時傳遞的參數不一樣而已，那麼說明無論返回的什麼類型的數據，都是在一個請求地址處理的，只是根據不同的傳參返回不同類型的數據而已

http://news.baidu.com/widget?id=LocalNews&ajax=json&t=1501348444467   JSON數據的網址

http://news.baidu.com/widget?id=civilnews&t=1501348728134        html類型的字符串數據網址

http://news.baidu.com/widget?id=InternationalNews&t=1501348728196    html類型的字符串數據網址

我們可以將html類型的字符串數據網址加上JSON數據的網址參數，那是否會返回JSON數據類型？試一試，果然成功了

http://news.baidu.com/widget?id=civilnews&ajax=json        將html類型的字符串數據網址加上JSON數據的網址參數

http://news.baidu.com/widget?id=InternationalNews&ajax=json    將html類型的字符串數據網址加上JSON數據的網址參數

這下就好辦了，找到所有的html類型的字符串數據網址，按照上面的方法將其轉換成JSON數據的網址，然後循環的去訪問轉換後的JSON數據的網址，就可以拿到所有新聞的url地址了

crapy實現

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request,FormRequest
import re
import json
from adc.items import AdcItem
from scrapy.selector import Selector

class PachSpider(scrapy.Spider):                            #定義爬蟲類，必須繼承scrapy.Spider
    name = 'pach'                                           #設置爬蟲名稱
    allowed_domains = ['news.baidu.com']                    #爬取域名
    start_urls = ['http://news.baidu.com/widget?id=civilnews&ajax=json']

    qishiurl = [                    #的到所有頁面id
        'InternationalNews',
        'FinanceNews',
        'EnterNews',
        'SportNews',
        'AutoNews',
        'HouseNews',
        'InternetNews',
        'InternetPlusNews',
        'TechNews',
        'EduNews',
        'GameNews',
        'DiscoveryNews',
        'HealthNews',
        'LadyNews',
        'SocialNews',
        'MilitaryNews',
        'PicWall'
    ]

    urllieb = []
    for i in range(0,len(qishiurl)):            #構造出所有idURL
        kaishi_url = 'http://news.baidu.com/widget?id=' + qishiurl[i] + '&ajax=json'
        urllieb.append(kaishi_url)
    # print(urllieb)

    def parse(self, response):                  #選項所有連接
        for j in range(0, len(self.urllieb)):
            a = '正在處理第%s個欄目:url地址是：%s' % (j, self.urllieb[j])
            yield scrapy.Request(url=self.urllieb[j], callback=self.enxt)     #每次循環到的url 添加爬蟲

    def enxt(self, response):
        neir = response.body.decode("utf-8")
        pat2 = '"m_url":"(.*?)"'
        url = re.compile(pat2, re.S).findall(neir)      #通過正則獲取爬取頁面 的URL
        for k in range(0,len(url)):
            zf_url = url[k]
            url_zf = re.sub("\\\/", "/", zf_url)
            pduan = url_zf.find('http://')
            if pduan == 0:
                print(url_zf)                       #輸出獲取到的所有url

【轉載自：http://www.lqkweb.com】

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

13、web爬蟲講解2—Scrapy框架爬蟲—Scrapy爬取百度新聞，爬取Ajax動態生成的信息

【百度雲搜索，搜各種資料:http://www.bdyss.cn】

【搜網盤，搜各種資料:http://www.swpan.cn】

如何基於surging跨網關跨語言進行緩存降級

2024合集

程序員天天 CURD，怎麼才能成長，職業發展的思考(2)

移位操作搞定兩數之商

教你用Perl實現Smgp協議

如何通過前端表格控件在10分鐘內完成一張分組報表？

win11關閉自動檢測病毒刪文件

通用代碼生成器簡介

lightdb 單機模式下數據庫平移

千兆寬帶實際網速能到達多少？

25、Python快速開發分佈式搜索引擎Scrapy精講—Requests請求和Response響應介紹

24、Python快速開發分佈式搜索引擎Scrapy精講—爬蟲和反爬的對抗過程以及策略—scrapy架構源碼分析圖

23、 Python快速開發分佈式搜索引擎Scrapy精講—craw scrapy item loader機制

22、Python快速開發分佈式搜索引擎Scrapy精講—scrapy模擬登陸和知乎倒立文字驗證碼識別

20、 Python快速開發分佈式搜索引擎Scrapy精講—編寫spiders爬蟲文件循環抓取內容

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結