Python爬蟲系列集合:VIP音樂+小說+彈幕,都在這裏集合了

最近,有小粉絲在後臺私信我,說:小Q啊,我這邊按照你之前的教程,去獲取一些小說的內容,想要自己私下看,但是爲什麼,我拿到這些小說之後,全都是亂碼啊,就像下面這個樣子

我也encoding=‘utf-8’去進行相應的修改了,但是還是有問題怎麼回事啊,我看了一下,他在最一開始的時候,獲取到網頁信息的時候就已經是亂碼了,如何獲取網站的響應信息呢?大家可以看這裏,這是我之前寫的文章,有詳細的圖文解析:

五步帶你探究爬蟲爬取視頻彈幕背後的真相,附爬蟲實現源碼

注意:這個連接中有一個獲取源碼的小項目,但是,現在這個小項目進行了更新,B站爲了讓彈幕數量更高一些,所以採用了一種加密和壓縮的新格式,解決方案有兩種

第一種:採用複雜的解密方法

第二種:很簡單

#這是原地址  https://api.bilibili.com/x/v2/dm/web/history/seg.so?type=1&oid=106015992&date=2021-01-20# url是新的地址
> url='https://api.bilibili.com/x/v2/dm/history?type=1&oid=106015992&date=2021-01-20'

就是刪除web以及seg.so即可

大家可以去嘗試一下

這裏啊,也教初學者一點小技巧,當你的實現邏輯沒有問題,也覺得這個應該不是我們的代碼問題,那可以通過print方法,每一步去打印相應的結果,看是哪一步出現的問題

類似這個樣子,這樣的話,你可以查看到每一步的結果,就知道到底是哪一步出現問題,對於初學者,可以更好地理解相應的方法實現,也能找到到底是那一步出現問題,下面把我這個小粉絲的代碼以及需求分享給大家

#需求:爬取三國演義小說所有的章節標題和章節內容
#https://www.shicimingju.com/book/sanguoyanyi.html
import requests
from bs4 import BeautifulSoup
import lxml
​
# UA僞裝
headers = {
 'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36"
}
​
url = 'https://www.shicimingju.com/book/sanguoyanyi.html'
​
page_text = requests.get(url=url,headers=headers)
page_text.encoding='utf-8'
​
# 在首頁中解析出文章的標題和詳情頁的url
# 1 實例化BeautifulSoup對象 需要將頁面源碼的數據加載到該對象中
​
soup = BeautifulSoup(page_text.text,"lxml")
​
​
# 解析章節標題和詳情頁的url
li_list = soup.select(".book-mulu > ul > li")
​
print(li_list)
fp = open("./sanguo.txt",'w',encoding="utf-8")
print(fp)
for li in li_list:
 title = li.a.string

 detail_url = "https://www.shicimingju.com"+li.a["href"]
 # 對詳情頁發起請求 解析章節內容
 detail_url_text = requests.get(url=detail_url,headers=headers)
 detail_url_text.encoding='utf-8'
 # 解析出詳情頁相關的章節內容
 detail_soup = BeautifulSoup(detail_url_text.text,"lxml")
 div_tag = detail_soup.find("div", class_="chapter_content")
 #解析到了講解的內容
 content = div_tag.text
 fp.write(title+":"+content+"\n")
 print(title,"爬取成功")

福利消息:

vip音樂獲取源碼:

程序員絕對不可能花錢系列--Python獲取VIP音樂

當然,最後,只有這幾個代碼怎麼可以,給大家透露一個福利消息:

我已經開始將自己的python相應的代碼開源到我的碼雲

後面我會錄製一套視頻包含爬蟲,數據分析以及辦公自動化的相應內容,並且聯合代碼免費分享給大家,大家可以持續關注我,到時候考慮一下是在B站還是直接網盤分享給大家,供大家學習使用,現在年底了,雖然我們已經因爲疫情停工回家了,但是,家裏依舊一堆事,畢竟也有一年沒有回家了,所以這個視頻暫定時間是年後進行發佈,現在就委屈想學習的大家,先看着文字學習一下吧

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章