python爬取b站JFla小姐姐視頻封面

原創

2020-06-16 03:19

昨晚學習英語聽力，偶然間“遇到”了JFla翻唱的《Something Just Like This》的視頻，看完之後被小姐姐的聲音和側顏吸引住了，於是我去了萬能的b站，搜了一下果然有很多。當時正好在學爬蟲，比較菜，想練練手。於是我就蠢了一下，乾脆把搜到的所有視頻的av號和封面以及標題都爬下來吧，滿足於一下自己的雙面需求。因此將實現的想法和過程放出來，大家可以一起討論。(圖片也上傳了喲)

然後就開始爬，先在b站搜索JFla

$G:\Learning\html_learn\code\claw_film\bilibili\bilibili_pic\JFla\materials\1.png"$

可以看到我們搜到了很多，大概一共有50頁的樣子。既然是爬取封面，那就先看一下這個頁面的源碼，萬一鏈接在裏面呢，雖然可能性比較小，但是還是看看吧。

好吧，可以看到src="",alt=""是空的，說明封面圖片不在這，但是我們能看到，不僅標題在這裏，視頻的av號也在這裏，覺得有可能有用，先標註一下。然後就只能去network裏面找了，找來找去沒找着......算了，不找了！乾脆暴力一點，隨便找一個視頻點進去，打開network，我就不信找不到你！

找到view？aid=****...**文件，打開preview一下，果然，被我找到了，可算發現你了。發現pic鏈接，就是它了，我們就準備獲取它。複製它的adress，發現是 https://api.bilibili.com/x/web-interface/view?aid=9467312 於是我們猜測，每個視頻包含我們想要數據的鏈接都長這樣，只是aid即av號不一樣而已，再隨便打開幾個看一下，證實了這個想法。那就好辦了，之前不是說網頁源碼可以獲取本頁視頻av號嘛，那就搞！

我們根據源碼頁面的鏈接構造，改變page屬性就可以輕鬆實現翻頁，有多少page也可以爬下來，按照源碼往下找找就行了。然後寫個循環吧，把所有頁面的av號和標題拿下來，存到數據庫裏面去。爬完以後，就從數據讀取av號，完成最終url的拼接，這樣我們就得到了所有視頻包含數據的url，循環爬取信息，拿到我們想要的封面鏈接，保存到數據庫裏面，然後用requests包，寫個方法，把圖片下載下來就完事了，慢慢的爬，悄悄地，別被發現了。

如果有不恰當的地方，希望大家指正！一起努力學習！

github網址：https://github.com/foreversunx/GetbilibiliPic

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python爬取b站JFla小姐姐視頻封面

工作中用到的腳本合集

微服務實踐Aspire項目發佈到遠程k8s集羣

通過f-string編寫簡潔高效的Python格式化輸出代碼

[轉帖]20個常用的Linux工具命令

[轉帖]PostgreSQL從小白到高手教程 - 第46講：poc-tpch測試

24-5-18 X

python爬取b站JFla小姐姐視頻封面

Pyqt5製作嗶哩嗶哩簽到程序

Python時間序列處理之ARIMA模型的使用講解

Python數學模型——線性規劃求解（二）

Python時間序列處理之ARIMA模型

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結