學會用python網絡爬蟲爬取鬥圖網的表情包,聊微信再也不怕鬥圖了

最近總是有人跟我鬥圖,想了想17年中旬時在網上看過一篇關於爬取鬥圖網表情包的py代碼,但是剛想爬的時候發現網頁結構發生了變化,而且鬥圖網還插入了很多廣告,變化其實挺大的,所以臨時寫了一個爬蟲,簡單的爬取了鬥圖網的表情包。從這鏈接上看,page表示的是第幾頁,我只爬取了500多頁(很奇怪白天明明看到一共有一千多頁的,爲啥晚上就只有548頁?),純屬娛樂,表情包夠用就行。


 這裏還是要推薦下小編的Python學習羣:483546416,不管你是小白還是大牛,小編我都歡迎,不定期分享乾貨,包括小編自己整理的一份2017最新的Python資料和0基礎入門教程,歡迎初學和進階中的小夥伴。在不忙的時間我會給大家解惑。

重點還是在於解析網頁,頁面上每一欄都是一組圖,這組圖有一個鏈接指向,所以我只要提取到這個鏈接,再打開這個鏈接,然後在新的網頁上提取表情圖片,下載下來就行了。解析網頁使用了python的xpath,剩下的就是數學思維了,循環嵌套和判斷什麼的。

源碼截圖如下(使用的是python3):


爲了保留表情的動態圖效果,代碼中加了判斷是否爲gif格式的圖片。


因爲網速不好,所以總共等待2秒

爬取的效果圖如下:


於是可以放服務器,慢慢跑,圖片下載的速度還是挺快的。


需要爬蟲源碼或者表情包的友友們,可以私信我。

後面爬了一部分後覺得用起來不太方便,覺得還是需要給圖片命個名字,要不然真正鬥圖的時候,找不到對應的圖片也麻煩,比較難搜索,所以加了幾行代碼,抓取圖片名字,效果圖如下,需要對應的圖片時候直接搜索你想要的表情包大概的名字就可以了。修改後的源碼截圖就沒放上去了,需要的話私信或者博客。


發佈了35 篇原創文章 · 獲贊 75 · 訪問量 15萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章