学会用python网络爬虫爬取斗图网的表情包,聊微信再也不怕斗图了

最近总是有人跟我斗图,想了想17年中旬时在网上看过一篇关于爬取斗图网表情包的py代码,但是刚想爬的时候发现网页结构发生了变化,而且斗图网还插入了很多广告,变化其实挺大的,所以临时写了一个爬虫,简单的爬取了斗图网的表情包。从这链接上看,page表示的是第几页,我只爬取了500多页(很奇怪白天明明看到一共有一千多页的,为啥晚上就只有548页?),纯属娱乐,表情包够用就行。


 这里还是要推荐下小编的Python学习群:483546416,不管你是小白还是大牛,小编我都欢迎,不定期分享干货,包括小编自己整理的一份2017最新的Python资料和0基础入门教程,欢迎初学和进阶中的小伙伴。在不忙的时间我会给大家解惑。

重点还是在于解析网页,页面上每一栏都是一组图,这组图有一个链接指向,所以我只要提取到这个链接,再打开这个链接,然后在新的网页上提取表情图片,下载下来就行了。解析网页使用了python的xpath,剩下的就是数学思维了,循环嵌套和判断什么的。

源码截图如下(使用的是python3):


为了保留表情的动态图效果,代码中加了判断是否为gif格式的图片。


因为网速不好,所以总共等待2秒

爬取的效果图如下:


于是可以放服务器,慢慢跑,图片下载的速度还是挺快的。


需要爬虫源码或者表情包的友友们,可以私信我。

后面爬了一部分后觉得用起来不太方便,觉得还是需要给图片命个名字,要不然真正斗图的时候,找不到对应的图片也麻烦,比较难搜索,所以加了几行代码,抓取图片名字,效果图如下,需要对应的图片时候直接搜索你想要的表情包大概的名字就可以了。修改后的源码截图就没放上去了,需要的话私信或者博客。


发布了35 篇原创文章 · 获赞 75 · 访问量 15万+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章