最近总是有人跟我斗图,想了想17年中旬时在网上看过一篇关于爬取斗图网表情包的py代码,但是刚想爬的时候发现网页结构发生了变化,而且斗图网还插入了很多广告,变化其实挺大的,所以临时写了一个爬虫,简单的爬取了斗图网的表情包。从这链接上看,page表示的是第几页,我只爬取了500多页(很奇怪白天明明看到一共有一千多页的,为啥晚上就只有548页?),纯属娱乐,表情包够用就行。
重点还是在于解析网页,页面上每一栏都是一组图,这组图有一个链接指向,所以我只要提取到这个链接,再打开这个链接,然后在新的网页上提取表情图片,下载下来就行了。解析网页使用了python的xpath,剩下的就是数学思维了,循环嵌套和判断什么的。
源码截图如下(使用的是python3):
为了保留表情的动态图效果,代码中加了判断是否为gif格式的图片。
爬取的效果图如下:
于是可以放服务器,慢慢跑,图片下载的速度还是挺快的。
需要爬虫源码或者表情包的友友们,可以私信我。
后面爬了一部分后觉得用起来不太方便,觉得还是需要给图片命个名字,要不然真正斗图的时候,找不到对应的图片也麻烦,比较难搜索,所以加了几行代码,抓取图片名字,效果图如下,需要对应的图片时候直接搜索你想要的表情包大概的名字就可以了。修改后的源码截图就没放上去了,需要的话私信或者博客。