Python爬取新浪微博用戶信息及內容

新浪微博作爲新時代火爆的新媒體社交平臺,擁有許多用戶行爲及商戶數據,因此需要研究人員都想要得到新浪微博數據,But新浪微博數據量極大,獲取的最好方法無疑就是使用Python爬蟲來得到。網上有一些關於使用Python爬蟲來爬取新浪微博數據的教程,但是完整的介紹以及爬取用戶所有數據信息比較少,因此這裏分享一篇主要通過selenium包來爬取新浪微博用戶數據的文章。

目標

爬取新浪微博用戶數據,包括以下字段:id,暱稱,粉絲數,關注數,微博數,每一篇微博的內容,轉發數,評論數,點贊數,發佈時間,來源,以及是原創還是轉發。(本文以GUCCI(古馳)爲例)

方法

+使用selenium模擬爬蟲
+使用BeautifulSoup解析HTML

結果展示

Python爬取新浪微博用戶信息及內容

步驟分解

1.選取爬取目標網址

首先,在準備開始爬蟲之前,得想好要爬取哪個網址。新浪微博的網址分爲網頁端和手機端兩個,大部分爬取微博數據都會選擇爬取手機端,因爲對比起來,手機端基本上包括了所有你要的數據,並且手機端相對於PC端是輕量級的。

下面是GUCCI的手機端和PC端的網頁展示。

Python爬取新浪微博用戶信息及內容

2.模擬登陸

定好爬取微博手機端數據之後,接下來就該模擬登陸了。
模擬登陸的網址
登陸的網頁下面的樣子

Python爬取新浪微博用戶信息及內容

模擬登陸代碼

Python爬取新浪微博用戶信息及內容

Python爬取新浪微博用戶信息及內容

3.獲取用戶微博頁碼

在登錄之後可以進入想要爬取的商戶信息,因爲每個商戶的微博量不一樣,因此對應的微博頁碼也不一樣,這裏首先將商戶的微博頁碼爬下來。與此同時,將那些公用信息爬取下來,比如用戶uid,用戶名稱,微博數量,關注人數,粉絲數目。

Python爬取新浪微博用戶信息及內容

4.根據爬取的最大頁碼,循環爬取所有數據

在得到最大頁碼之後,直接通過循環來爬取每一頁數據。抓取的數據包括,微博內容,轉發數量,評論數量,點贊數量,發微博的時間,微博來源,以及是原創還是轉發。

Python爬取新浪微博用戶信息及內容

Python爬取新浪微博用戶信息及內容

4.在得到所有數據之後,可以寫到csv文件,或者excel,最後的結果顯示在上面展示

文章到這裏完整的微博爬蟲就解決啦!

最後,如果有想一起學習python,爬蟲,可以來一下我的python學習裙【 784758214 】,內有安裝
包和學習視頻資料免費分享,好友都會在裏面交流,分享一些學習的方法和需要注意的小細節,每天
也會準時的講一些項目實戰案例。

點擊:加入

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章