看膩了楊冪,熱巴,快來抓取上千張美女圖片,古裝美女看個夠

大家好,我是菜鳥哥!最近的一段時間以來,小編都沒有爲大家送上一些小姐姐福利,今天小編就帶領大家來抓取古裝小姐姐的美照,通過程序來抓取上千張古裝美女的圖片,一起來看看吧。

01.程序講解

對於古裝美女數據的抓取,程序獲取的是靚麗圖庫(https://www.hexuexiao.cn/meinv/guzhuang/)的圖片數據,如下圖所示:

網站中不僅有古裝美女的圖片,而且還有日韓美女、動漫美女等美圖,通過今天程序的分享,大家可以通過程序的修改來抓取其他類型的圖片。

對於圖片的抓取,程序可以分爲三個部分來進行拆解。

  • 獲取子網頁鏈接

  • 獲取每張圖片的鏈接

  • 抓取圖片保存到本地

    爲了便於大家對於程序的理解,上述的三個部分,程序分別利用了三個函數來對應實現。

02.獲取子網頁鏈接

通過對於網頁的分析,可以發現我們要抓取的網頁屬於靜態網頁,也就是說我們想要獲取的子網頁鏈接,就通過對於網頁源代碼的解析就能夠獲取得到。

如上圖所示,網頁源代碼中,包含着網頁中的文本信息,還有我們想要抓取的子網頁的鏈接地址。根據這些信息,我們就可以利用requests庫來請求網頁源代碼,通過BeautifulSoup、Xpath等庫來進行網頁源代碼的解析,並提取出我們想要的子網頁鏈接地址。

對於程序的編寫,完全按照我們上述的分析來完成,首先是對於網頁源代碼數據的獲取,並通過BeautifulSoup來解析網頁源代碼並獲取得到所有的子網頁鏈接。程序中的每行程序小編都進行了註釋,方便大家對於程序的理解。

03.獲取每張圖片的鏈接

對於每張圖片的鏈接,這裏同樣是對於靜態網頁的解析。同子網頁抓取稍微不同的是,程序需要判斷每個子網頁中,包含多少張圖片,程序如下圖所示。

程序中添加了對於每個子網頁下包含多少張圖片的判斷,因爲每個子網頁下的每張圖片有不同的網頁鏈接,例如對於https://www.hexuexiao.cn/a/124672-0.html和網頁https://www.hexuexiao.cn/a/124672-1.html來說,是針對於子網頁https://www.hexuexiao.cn/a/124672.html衍生出來的兩張圖片的鏈接地址。在獲取得到每張圖片的鏈接地址後,程序按照靜態網頁的分析方法來獲取每張圖片的鏈接,並通過self.savePic函數保存圖片。

04.抓取圖片保存到本地

圖片數據的保存,可以通過下圖中的三行程序進行完成。

程序請求網頁圖片的數據,通過二進制寫入的方式,將圖片保存到本地文件,進行保存。

05.結果展示

以上三個部分的解析,便是我們所有的程序內容,接下來我們來看一下抓取得到的結果吧。


06.總結

通過程序的抓取,一共獲取到了上千張古裝美女的圖片,一共包含了200多位古裝模特,圖片質量非常棒,大家可以用來製作壁紙,如果大家還覺得不夠的話,可以通過對於程序的修改,來下載其他類型的圖片數據。歡迎大家在留言區吱一聲,記得給個三連哦!

需要源碼的同學,請在公衆號後臺輸入:小助手,備註暗號:(古裝美女)

【菜鳥學Python】累計原創近400篇趣味乾貨(爬蟲,數據分析,算法,面試指南,原創趣味實戰,Python遊戲,機器學習),歡迎一起學Python,交流指正。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章