用多進程爬取西刺代理能用的proxy

import requests
from lxml import etree
import time
# 424.13342022895813
import multiprocessing
from multiprocessing import Queue,Pool


#定義一個獲取所有的代理ip的函數
def get_all_proxy(queue):
    url = 'http://www.xicidaili.com/nn/1'

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
    }
    response = requests.get(url, headers=headers)

    # with open('song.html', 'wb') as f:
    #     f.write(response.content)
    #下面三步是找到我們需要的ip和post
    html_ele = etree.HTML(response.text)

    ip_eles = html_ele.xpath('//table[@id="ip_list"]/tr/td[2]/text()')
    port_ele = html_ele.xpath('//table[@id="ip_list"]/tr/td[3]/text()')

    # print(len(ip_eles))
    # print(len(port_ele))
    # proxy_list = []
    # 循環所有的代理ip
    for i in range(0,len(ip_eles)):
        #組裝成我們需要的格式
        proxy_str = 'http://' + ip_eles[i] + ':' + port_ele[i]
        # proxy_list.append(proxy_str)
        # 放到我們消息隊列
        queue.put(proxy_str)
        # print(proxy_str)

#這個函數用來檢測代理是否可用
def check_all_proxy(proxy):
    # print(11111111111111111111111)
    #用百度來檢驗
    url = 'http://www.baidu.com/s?wd=ip'
    proxy_dict = {
        'http': proxy
    }

    try:
        response = requests.get(url, proxies=proxy_dict, timeout=5)
        #返回碼是200 說明可用
        if response.status_code == 200:
            print('這個人頭送的好' + proxy)
            print(proxy)
            return proxy
        else:
            #這個雖然不是200,但是有返回值說不定能用
            print('這個人頭沒送好')
            print(proxy)
            return proxy
    except:
        pass
        #print('這個人頭耶耶耶沒送好--------------->')



if __name__ == '__main__':
    #定義一個開始時間
    start_time = time.time()
    #實例化一個消息隊列
    q = Queue()
    #這個進程用來獲取我們需要的proxy
    p = multiprocessing.Process(target=get_all_proxy,args=(q,))
    # proxy_list = get_all_proxy()
    #開啓進程
    p.start()
    #定義一個進程池,10代表同時開啓10個進程
    pool = Pool(10)
    proxy_lists = []
    while True:
        try:
            #從消息隊列獲取proxy
            proxy_str = q.get(timeout=5)
        except:
            #沒有就結束死循環
            break
        #這個進程池裏面用來檢驗proxy是否可用
        res_proxy = pool.apply_async(check_all_proxy,(proxy_str,))
        # print(res_proxy)
        # 把可用的放入到一個列表,但是得循環遍歷並且用get()方法獲取
        proxy_lists.append(res_proxy)

    res_true_proxy = []
    #獲取所有能用的proxy
    for proxy in proxy_lists:
        res = proxy.get()
        if res:
            res_true_proxy.append(res)
    pool.close()
    pool.join()
    p.join()
    print(res_true_proxy)
    #定義結束時間
    end_time = time.time()
    print('--'*30)
    print('耗時:' + str(end_time-start_time))
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章