Python爬蟲DNS解析緩存方法實例分析

本文實例講述了Python爬蟲DNS解析緩存方法。分享給大家供大家參考,具體如下:

前言:

這是Python爬蟲中DNS解析緩存模塊中的核心代碼,是去年的代碼了,現在放出來 有興趣的可以看一下。

一般一個域名的DNS解析時間在1060毫秒之間,這看起來是微不足道,但是對於大型一點的爬蟲而言這就不容忽視了。例如我們要爬新浪微博,同個域名下的請求有1千萬(這已經不算多的了),那麼耗時在1060萬秒之間,一天才86400秒。也就是說單DNS解析這一項就用了好幾天時間,此時加上DNS解析緩存,效果就明顯了。

下面直接放代碼,說明在後面。

代碼:

# encoding=utf-8
# ---------------------------------------
#  版本:0.1
#  日期:2016-04-26
#  作者:九茶<[email protected]>
#  開發環境:Win64 + Python 2.7
# ---------------------------------------
import socket
# from gevent import socket
_dnscache = {}
def _setDNSCache():
  """ DNS緩存 """
  def _getaddrinfo(*args, **kwargs):
    if args in _dnscache:
      # print str(args) + " in cache"
      return _dnscache[args]
    else:
      # print str(args) + " not in cache"
      _dnscache[args] = socket._getaddrinfo(*args, **kwargs)
      return _dnscache[args]
  if not hasattr(socket, '_getaddrinfo'):
    socket._getaddrinfo = socket.getaddrinfo
    socket.getaddrinfo = _getaddrinfo

說明:

其實也沒什麼難度,就是將socket裏面的緩存保存下來,避免重複獲取。
可以將上面的代碼放在一個dns_cache.py文件裏,爬蟲框架裏調用一下這個_setDNSCache()方法就行了。

最後給大家推薦一個口碑不錯的python聚集地【點擊進入】,這裏有很多的老前輩學習技巧,學習心得,面試技巧,職場經歷等分享,更爲大家精心準備了零基礎入門資料,實戰項目資料,每天都有程序員定時講解Python技術,分享一些學習的方法和需要留意的小細節
需要說明一下的是,如果你使用了gevent協程,並且用上了monkey.patch_all(),要注意此時爬蟲已經改用gevent裏面的socket了,DNS解析緩存模塊也應該要用gevent的socket纔行。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章