import requests
from lxml import etree
import time
# 424.13342022895813
import multiprocessing
from multiprocessing import Queue,Pool
#定義一個獲取所有的代理ip的函數
def get_all_proxy(queue):
url = 'http://www.xicidaili.com/nn/1'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
}
response = requests.get(url, headers=headers)
# with open('song.html', 'wb') as f:
# f.write(response.content)
#下面三步是找到我們需要的ip和post
html_ele = etree.HTML(response.text)
ip_eles = html_ele.xpath('//table[@id="ip_list"]/tr/td[2]/text()')
port_ele = html_ele.xpath('//table[@id="ip_list"]/tr/td[3]/text()')
# print(len(ip_eles))
# print(len(port_ele))
# proxy_list = []
# 循環所有的代理ip
for i in range(0,len(ip_eles)):
#組裝成我們需要的格式
proxy_str = 'http://' + ip_eles[i] + ':' + port_ele[i]
# proxy_list.append(proxy_str)
# 放到我們消息隊列
queue.put(proxy_str)
# print(proxy_str)
#這個函數用來檢測代理是否可用
def check_all_proxy(proxy):
# print(11111111111111111111111)
#用百度來檢驗
url = 'http://www.baidu.com/s?wd=ip'
proxy_dict = {
'http': proxy
}
try:
response = requests.get(url, proxies=proxy_dict, timeout=5)
#返回碼是200 說明可用
if response.status_code == 200:
print('這個人頭送的好' + proxy)
print(proxy)
return proxy
else:
#這個雖然不是200,但是有返回值說不定能用
print('這個人頭沒送好')
print(proxy)
return proxy
except:
pass
#print('這個人頭耶耶耶沒送好--------------->')
if __name__ == '__main__':
#定義一個開始時間
start_time = time.time()
#實例化一個消息隊列
q = Queue()
#這個進程用來獲取我們需要的proxy
p = multiprocessing.Process(target=get_all_proxy,args=(q,))
# proxy_list = get_all_proxy()
#開啓進程
p.start()
#定義一個進程池,10代表同時開啓10個進程
pool = Pool(10)
proxy_lists = []
while True:
try:
#從消息隊列獲取proxy
proxy_str = q.get(timeout=5)
except:
#沒有就結束死循環
break
#這個進程池裏面用來檢驗proxy是否可用
res_proxy = pool.apply_async(check_all_proxy,(proxy_str,))
# print(res_proxy)
# 把可用的放入到一個列表,但是得循環遍歷並且用get()方法獲取
proxy_lists.append(res_proxy)
res_true_proxy = []
#獲取所有能用的proxy
for proxy in proxy_lists:
res = proxy.get()
if res:
res_true_proxy.append(res)
pool.close()
pool.join()
p.join()
print(res_true_proxy)
#定義結束時間
end_time = time.time()
print('--'*30)
print('耗時:' + str(end_time-start_time))
用多進程爬取西刺代理能用的proxy
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.