Python爬虫系列集合:VIP音乐+小说+弹幕,都在这里集合了

最近,有小粉丝在后台私信我,说:小Q啊,我这边按照你之前的教程,去获取一些小说的内容,想要自己私下看,但是为什么,我拿到这些小说之后,全都是乱码啊,就像下面这个样子

我也encoding=‘utf-8’去进行相应的修改了,但是还是有问题怎么回事啊,我看了一下,他在最一开始的时候,获取到网页信息的时候就已经是乱码了,如何获取网站的响应信息呢?大家可以看这里,这是我之前写的文章,有详细的图文解析:

五步带你探究爬虫爬取视频弹幕背后的真相,附爬虫实现源码

注意:这个连接中有一个获取源码的小项目,但是,现在这个小项目进行了更新,B站为了让弹幕数量更高一些,所以采用了一种加密和压缩的新格式,解决方案有两种

第一种:采用复杂的解密方法

第二种:很简单

#这是原地址  https://api.bilibili.com/x/v2/dm/web/history/seg.so?type=1&oid=106015992&date=2021-01-20# url是新的地址
> url='https://api.bilibili.com/x/v2/dm/history?type=1&oid=106015992&date=2021-01-20'

就是删除web以及seg.so即可

大家可以去尝试一下

这里啊,也教初学者一点小技巧,当你的实现逻辑没有问题,也觉得这个应该不是我们的代码问题,那可以通过print方法,每一步去打印相应的结果,看是哪一步出现的问题

类似这个样子,这样的话,你可以查看到每一步的结果,就知道到底是哪一步出现问题,对于初学者,可以更好地理解相应的方法实现,也能找到到底是那一步出现问题,下面把我这个小粉丝的代码以及需求分享给大家

#需求:爬取三国演义小说所有的章节标题和章节内容
#https://www.shicimingju.com/book/sanguoyanyi.html
import requests
from bs4 import BeautifulSoup
import lxml
​
# UA伪装
headers = {
 'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36"
}
​
url = 'https://www.shicimingju.com/book/sanguoyanyi.html'
​
page_text = requests.get(url=url,headers=headers)
page_text.encoding='utf-8'
​
# 在首页中解析出文章的标题和详情页的url
# 1 实例化BeautifulSoup对象 需要将页面源码的数据加载到该对象中
​
soup = BeautifulSoup(page_text.text,"lxml")
​
​
# 解析章节标题和详情页的url
li_list = soup.select(".book-mulu > ul > li")
​
print(li_list)
fp = open("./sanguo.txt",'w',encoding="utf-8")
print(fp)
for li in li_list:
 title = li.a.string

 detail_url = "https://www.shicimingju.com"+li.a["href"]
 # 对详情页发起请求 解析章节内容
 detail_url_text = requests.get(url=detail_url,headers=headers)
 detail_url_text.encoding='utf-8'
 # 解析出详情页相关的章节内容
 detail_soup = BeautifulSoup(detail_url_text.text,"lxml")
 div_tag = detail_soup.find("div", class_="chapter_content")
 #解析到了讲解的内容
 content = div_tag.text
 fp.write(title+":"+content+"\n")
 print(title,"爬取成功")

福利消息:

vip音乐获取源码:

程序员绝对不可能花钱系列--Python获取VIP音乐

当然,最后,只有这几个代码怎么可以,给大家透露一个福利消息:

我已经开始将自己的python相应的代码开源到我的码云

后面我会录制一套视频包含爬虫,数据分析以及办公自动化的相应内容,并且联合代码免费分享给大家,大家可以持续关注我,到时候考虑一下是在B站还是直接网盘分享给大家,供大家学习使用,现在年底了,虽然我们已经因为疫情停工回家了,但是,家里依旧一堆事,毕竟也有一年没有回家了,所以这个视频暂定时间是年后进行发布,现在就委屈想学习的大家,先看着文字学习一下吧

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章