爬蟲---Python爬蟲IP代理池的建立和使用

原創

2020-02-23 07:29

同一個IP針對一個網站短時間內大量的訪問通常會導致IP被封，除了在爬取數據時增加延遲(爬取量不大或者對爬取速度沒要求)，還有一個好方法就是使用代理IP，這樣就可以完美解決IP被封的問題。

那麼，問題來了，代理的IP從哪兒來呢，土豪自然隨意，直接淘寶買一些代理IP就好，穩定也不是特別貴。但對於技術愛好者，也許並沒有那個需求，其實網上還是有很多免費的代理IP的，隨意打開百度一搜就是，選擇第一個不是廣告的網站爲例

可以看到，選擇還是蠻多的，那麼我們就從這個網站上抓取一些代理IP來使用吧，它的網址結構是'http://www.xicidaili.com/nn/'+PageNumber，每頁有50個代理IP，可以很方便的用for循環來爬取所有代理IP。查看網頁源碼，發現所有的IP和端口都在<tr class="">下第二個和第三個td類下，結合BeautifulSoup可以很方便地抓取信息，源代碼如下

[python]view plain copy
import urllib2  
from bs4 import BeautifulSoup  
import csv  
  
  
  
  
def IPspider(numpage):  
    csvfile = file('ips.csv', 'wb')    
    writer = csv.writer(csvfile)  
    url='http://www.xicidaili.com/nn/'  
    user_agent='IP'  
    headers={'User-agent':user_agent}  
    for num in xrange(1,numpage+1):  
        ipurl=url+str(num)  
        print 'Now downloading the '+str(num*100)+' ips'  
        request=urllib2.Request(ipurl,headers=headers)  
        content=urllib2.urlopen(request).read()  
        bs=BeautifulSoup(content,'html.parser')  
        res=bs.find_all('tr')  
        for item in res:  
            try:  
                temp=[]  
                tds=item.find_all('td')  
                temp.append(tds[1].text.encode('utf-8'))  
                temp.append(tds[2].text.encode('utf-8'))  
                writer.writerow(temp)  
            except IndexError:  
                    pass  
              
#假設爬取前十頁所有的IP和端口  
IPspider(10)  

這樣就爬到了1000個代理IP和端口，當然了，免費也有免費的壞處，那就是並不是所有的代理IP都可以用，所以我們需要檢查一下哪些IP是可以使用的。如何檢查該IP是否可用，我們就看連上代理後能不能在2秒內打開百度的頁面，如果可以，則認爲IP可用，添加到一個list裏供後面備用，實現代碼如下。

[python]view plain copy
import socket  
def IPpool():  
    socket.setdefaulttimeout(2)  
    reader=csv.reader(open('ips.csv'))  
    IPpool=[]  
    for row in reader:  
        proxy=row[0]+':'+row[1]  
        proxy_handler=urllib2.ProxyHandler({"http":proxy})  
        opener=urllib2.build_opener(proxy_handler)  
        urllib2.install_opener(opener)  
        try:  
            html=urllib2.urlopen('http://www.baidu.com')  
            IPpool.append([row[0],row[1]])  
        except Exception,e:  
            continue  
    return IPpool  

這樣的話，就取得了一系列可用的IP代理，配合之前的爬蟲使用，就不太容易出現IP被封的情況了，不過在目前這種情況下，驗證IP所需要的時間太久，所以可以採用多線程或者多進程的方法來進一步提高效率

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

爬蟲---Python爬蟲IP代理池的建立和使用

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

.NET週刊【5月第2期 2024-05-12】

Django---Cookie/Session機制詳解與區別

爬蟲---基礎1

Json介紹以及與Xml的比較

python數據分析之numpy和pandas的操作

Flask---框架快速入門

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結