Python爬取CSDN文章評論

原創

2020-06-27 07:27

最近在學習Python爬蟲，但沒有什麼完整的學習路線，就通過一些比較簡單的小實例來積累經驗，畢竟是爲了畢設而已。上次爬取了京東的商品評論（京東），這次來試着爬取CSDN的文章評論。

以前爬取過CSDN文章的名字和閱讀數，這些信息是存在靜態網頁中的，直接將頁面get下來就可以提取出這些簡單的信息。但是評論這種信息一般都存放在json文件中，通過ajax來控制，在靜態頁面中無法直接提取。所以我們還是老方法，打開網頁的審查功能，在network中的json或XHR裏尋找我們所要的評論文件。

首先在首頁挑一篇評論量不少的文章，然後按F12來查看頁面的源代碼，再點擊network後刷新一下。最後在XHR中尋找與評論相關的文件：

就是這幾個文件，是json形式存儲的評論內容，我們在右側的header中可以看到它們的URL，其中page參數控制頁數。弄清楚之後就可以開始寫代碼了

import urllib.request
import json
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36',
        'Referer': 'https://blog.csdn.net/qing_gee/phoenix/comment/list/104085756?page=1&size=10&tree_type=1'
    }
for i in range(1,5):
    url = "https://blog.csdn.net/qing_gee/phoenix/comment/list/104085756?page="+str(i)+"&size=10&tree_type=1"
    request = urllib.request.Request(url=url,headers=headers)
    content = urllib.request.urlopen(request).read().decode('gbk')
    obj = json.loads(content)
    data=obj['data']['list']
    for j in data:
        print(j['info']['Content'])

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python爬取京東商品評論（二）

上一篇博客中簡單實現了京東商品評論的爬蟲（Python爬取京東商品評論），由於這個爬蟲是我畢設的一部分，所以我需要對這個程序做一些補充，上一篇的程序中有許多不足的地方，下面我逐個解決。 1、首先是評論頁數的

2020-06-27 07:27:46

Python爬取京東商品評論

京東商城的頁面不是靜態頁面，其評論信息存放於json文件中，由ajax控制，所以我們在瀏覽器上看到的網頁源代碼和用Python爬下來的是不一樣的，所以我們真正要爬取的是評論數據所存放的json文件。首先打

2020-06-27 07:27:46

Python爬取豆瓣電影短評

豆瓣是比較難爬取的網站之一，主要因爲豆瓣默認如果不登錄賬號的話只能爬取10頁的評論。所以我就帶着cookie去爬取，而且設置了一個用戶代理池，儘可能的僞裝成瀏覽器。然而當我爬了三四次，一共幾十頁評論之後的第二天，我的豆瓣賬

2020-06-27 07:27:46

Python爬取NBA每日比賽比分

自從學會了爬蟲的基本用法之後，一些網頁上的基本信息都可以很容易的爬取下來。今天練習爬取了騰訊NBA官網上的每日賽程的比分，就是這個：這個網站的信息同樣是存儲在json文件中，在其HTML靜態文件中找不到

2020-06-27 07:27:46

Python爬蟲實戰練習（疫情數據獲取）

一、國內疫情數據的爬取1.1 獲取響應1.2 使用xpath解析數據1.2.1 分析xpath解析的數據1.2.2 再一次分析數據1.3 json轉化xpath數據類型1.4 逐個獲取我們需要的數據，並保存至Excel中1.4.

2020-06-16 12:00:50

Python爬蟲之正則的基礎應用

1. 正則表達式基礎2. 正則表達式實戰2.1 實戰任務2.2 實戰準備2.3 校花網實戰 1. 正則表達式基礎正則基礎入門學習筆記，補充：貪婪模式：.* 非貪婪(惰性)模式：.*? 2. 正則表達式實戰 2.1 實

2020-06-13 23:20:45

Python爬蟲之Urllib的基礎運用

2020-06-02 16:57:02

Python爬蟲之Requests的基礎運用

2020-06-02 16:57:02

Python爬蟲概述

2020-05-26 13:27:28

Python爬取京東商品評論（三）

2020-05-10 22:07:06

Python爬取京東商品評論（二）

上一篇博客中簡單實現了京東商品評論的爬蟲（Python爬取京東商品評論），由於這個爬蟲是我畢設的一部分，所以我需要對這個程序做一些補充，上一篇的程序中有許多不足的地方，下面我逐個解決。 1、首先是評論頁數的

2020-06-27 07:27:46

Python爬取京東商品評論

京東商城的頁面不是靜態頁面，其評論信息存放於json文件中，由ajax控制，所以我們在瀏覽器上看到的網頁源代碼和用Python爬下來的是不一樣的，所以我們真正要爬取的是評論數據所存放的json文件。首先打

2020-06-27 07:27:46

Python爬取豆瓣電影短評

豆瓣是比較難爬取的網站之一，主要因爲豆瓣默認如果不登錄賬號的話只能爬取10頁的評論。所以我就帶着cookie去爬取，而且設置了一個用戶代理池，儘可能的僞裝成瀏覽器。然而當我爬了三四次，一共幾十頁評論之後的第二天，我的豆瓣賬

2020-06-27 07:27:46

Python爬取NBA每日比賽比分

自從學會了爬蟲的基本用法之後，一些網頁上的基本信息都可以很容易的爬取下來。今天練習爬取了騰訊NBA官網上的每日賽程的比分，就是這個：這個網站的信息同樣是存儲在json文件中，在其HTML靜態文件中找不到

2020-06-27 07:27:46

#導出Python爬蟲工程所用的庫

使用cmd進入爬蟲工程所在文件夾，輸入指令 " pip freeze > 指定文件名.txt",按回車鍵即可在文件夾中生成所需庫的txt文件 pip freeze > requirements.text 安裝完之後，以後若需要在服

2020-06-21 09:12:08

24小時熱門文章

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

最新文章

最新評論文章