利用Python爬取几百万github数据！这些源码都是我的囊中之物！

原創

2019-02-23 00:17

私信小编007即可获取数十套PDF哦！

看到这么简单的流程，内心的第一想法就是先简单的写一个递归实现呗，要是性能差再慢慢优化，所以第一版代码很快就完成了（在目录recursion下）。数据存储使用mongo，重复请求判断使用的redis，写mongo数据采用celery的异步调用，需要rabbitmq服务正常启动，在settings.py正确配置后，使用下面的步骤启动：

这是按粉丝数降序排列的用户列表

运行缺陷

作为一个有追求的程序员，当然不能因为一点小成就满足，总结一下递归实现的几个缺陷：

异步优化

针对这种I/O耗时的问题，解决方法也就那几种，要么多并发，要么走异步访问，要么双管齐下。针对上面的问题2，我最开始的解决方式是异步请求API。因为最开始写代码的时候考虑到了这点，代码对调用方法已经做过优化，很快就改好了，实现方式使用了grequests。这个库和requests是同一个作者，代码也非常的简单，就是讲request请求用gevent做了一个简单的封装，可以非阻塞的请求数据。

运行程序

为了实现多级部署（虽然我就只有一台机器），消息队列使用了rabbitmq，需要创建名为github，类型是direct的exchange，然后创建四个名称分别为user, repo, follower, following的队列，详细的绑定关系见下图：

嘿嘿还是挺好玩的。如果对你有帮助，评论666.谢谢大家阅读！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

利用Python爬取几百万github数据！这些源码都是我的囊中之物！

诈骗（杀猪盘）网站进行渗透测试

Python 潮流周刊#50：我最喜欢的 Python 3.13 新特性！

外行也能读懂的网络硬件设备功能原理速成

用 Python 抓網頁？你想問的都幫答好了，你還有不懂的嗎？

Python神器！爬取京東手機上萬的商品數據

如何在Pycharm中使用GitHub，一文帶你深入

在GitHub上目前比較火的15個Python框架！

用 Python 抓網頁？你想問的都幫答好了，你還有不懂的嗎？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結