python爬取b站JFla小姐姐視頻封面

        昨晚學習英語聽力,偶然間“遇到”了JFla翻唱的《Something Just Like This》的視頻,看完之後被小姐姐 的聲音和側顏吸引住了,於是我去了萬能的b站,搜了一下果然有很多。當時正好在學爬蟲,比較菜,想練練手。於是我就蠢了一下,乾脆把搜到的所有視頻的av號和封面以 及標題都爬下來吧,滿足於一下自己的雙面需求。因此將實現的想法和過程放出來,大家可以一起討論。(圖片也上傳了喲)

        然後就開始爬,先在b站搜索JFla

G:\Learning\html_learn\code\claw_film\bilibili\bilibili_pic\JFla\materials\1.png"

        可以看到我們搜到了很多,大概一共有50頁的樣子。既然是爬取封面,那就先看一下這個頁面的源碼,萬一鏈接在裏面呢,雖然可能性比較小,但是還是看看吧。

在這裏插入圖片描述

        好吧,可以看到src="",alt=""是空的,說明封面圖片不在這,但是我們能看到,不僅標題在這裏,視頻的av號也在這裏,覺得有可能有用,先標註一下。然後就只能去network裏面找了,找來找去沒找着......算了,不找了!乾脆暴力一點,隨便找一個視頻點進去,打開network,我就不信找不到你!

在這裏插入圖片描述

        找到view?aid=****...**文件,打開preview一下,果然,被我找到了,可算發現你了。發現pic鏈接,就是它了,我們就準備獲取它。複製它的adress,發現是 https://api.bilibili.com/x/web-interface/view?aid=9467312 於是我們猜測,每個視頻包含我們想要數據的鏈接都長這樣,只是aid即av號不一樣而已,再隨便打開幾個看一下,證實了這個想法。那就好辦了,之前不是說網頁源碼可以獲取本頁視頻av號嘛,那就搞!

        我們根據源碼頁面的鏈接構造,改變page屬性就可以輕鬆實現翻頁,有多少page也可以爬下來,按照源碼往下找找就行了。然後寫個循環吧,把所有頁面的av號和標題拿下來,存到數據庫裏面去。爬完以後,就從數據讀取av號,完成最終url的拼接,這樣我們就得到了所有視頻包含數據的url,循環爬取信息,拿到我們想要的封面鏈接,保存到數據庫裏面,然後用requests包,寫個方法,把圖片下載下來就完事了,慢慢的爬,悄悄地,別被發現了。

在這裏插入圖片描述

        如果有不恰當的地方,希望大家指正!一起努力學習!

github網址:https://github.com/foreversunx/GetbilibiliPic

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章