####本文包含代碼所需的python外置庫:
- requests
- BeautifulSoup4
本文尤其適合對python爬蟲有一定了解的人羣,但是如果你是小白,也能從文章中獲取一些互聯網的知識
背景:
隨着大數據時代來臨,數據對於我們每個人來說都越來越重要,而互聯網又是最重要、最廣泛的數據獲取來源。
在這個時代下,我們每個人都應該掌握一定的從互聯網獲取信息的能力。而python爬蟲,就是我們從互聯網獲取信息的利器!
當我們運用python爬蟲從互聯網上獲取信息時,經常的會遇到被封IP的尷尬情況。
這是由於我們的爬蟲佔據了網站太多的服務器資源而又對它幾乎沒有任何益處,所以人家當然不允許你這麼做。
所以我們需要使用代理來避免這種情況。
正文:
先講思路,代碼放在下面:
1.請求網頁的內容
2.使用BeautufulSoup4分析網頁內容,提煉出需要的內容
3.程序可自主選擇爬取http還是https的代理,高匿名還是透明代理(推薦高匿名),爬取多少頁
4.多線程對爬取下來的ip進行可用性檢測(畢竟是免費的代理,很多都不能用的,需要自己進行檢測)
5.寫入文件(這部分可以改動)
思路的代碼分析:
- 請求網頁內容使用requests庫的get方法就可以,並且在在get函數中傳入proxies參數,參數是一個字典,類似下面這樣
通過 requests.get(url=url, headers=header,proxies={“http”:“http://xx.xx.xx.xx”}, timeout=5) 使用http協議的ip代理
或者
通過**requests.get(url=url, headers=header,proxies={“https”:“https://xx.xx.xx.xx”}, timeout=5)**使用https協議的ip代理
- 西拉代理官網的元素很好分析,使用bs4幾行就分析好了
[外鏈圖片轉存中…(img-a9N0yqG4-1580129432516)]
我們需要的是上面截圖中三個箭頭的元素,因爲本程序提供http和https的選擇功能,還有匿名度的選擇功能。
如果有需要其它選擇選項比如代理位置或者響應速度什麼的,可以自行修改,或者可以聯繫我。
-
幾個選項使用if判斷語句判斷一下分析出來的元素就可實現
-
ip可用性檢測的方法是使用這個代理訪問網站,若是訪問成功則說明https代理有效,而http代理步驟稍多一步。http代理檢測,是訪問一個ip網站,這個網站會分析訪問過來的ip並顯示在頁面上,我們獲取這個元素然後和我們的代理進行比對來判斷是否有效。多線程是由於若是ip不可用則至少花費5秒鐘時間等待,這樣顯得效率十分低下,所以開多線程(鑑於GIL鎖的存在,此處的多線程與python的協程差不多,有不懂的可以私信我)
-
寫入文件這一部分很簡單,但是可以作改動,因爲從網上爬取下來的ip可能隨時會失效,所以使用文件保存是不好的,最好是隨時爬取,有效就直接用。可以考慮改造一下函數變成一個列表生成器,每次yield一個列表出去,列表裏面放置了有效的ip。
代碼:
import requests
from bs4 import BeautifulSoup
import time
import threading
IP_MODE = 1 # 1. http 2.https
NI_MING_MODE = 1 # 1.高匿 2.透明
PAGE = 50 # 默認爬取50頁
url = ""
if IP_MODE == 1:
url = "http://www.xiladaili.com/http/{}/"
elif IP_MODE == 2:
url = "http://www.xiladaili.com/https/{}/"
else:
# 輸入其它數字默認爲http
url = "http://www.xiladaili.com/http/{}/"
header = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36"}
def test_http(host):
"""
檢測http代理IP是否有效並將有效IP寫入文件
"""
ip = {}
ip["http"] = "http://" + host
# 通過訪問下面這個ip檢測網站來判斷
url = "http://ip.tool.chinaz.com/"
# http無效的情況大致有兩種 1.無法訪問這個網頁,那麼這個代理不可用 2.能訪問網頁但是沒有達到代理效果,即仍然使用的自己的ip訪問網頁
try:
html = requests.get(url=url, headers=header,
proxies=ip, timeout=5).text
except:
return
else:
soup = BeautifulSoup(html, "lxml")
try:
real_ip = soup.select_one(".fz24").text
except:
return
if real_ip == host.split(":")[0]:
print("有效IP:" + host)
with open("xila_http_list.txt", "a") as af:
af.write(host + " ")
else:
return
def test_https(host):
"""
檢測https代理是否有效,並將有效IP寫入文件
"""
ip = {}
ip["https"] = "https://" + host
url = "https://blog.csdn.net/luoyangIT"
# https檢測只能通過檢查是否能訪問https協議的網頁來判斷,若有其它方法則繼續增加
try:
html = requests.get(url=url, headers=header,
proxies=ip, timeout=5).text
except:
return
else:
print("有效IP:" + host)
with open("xila_https_list.txt", "a") as af:
af.write(host + " ")
def main():
"""
主函數,入口
"""
for i in range(1, PAGE):
# 延時,避免對服務器造成太大負荷,同時在延時時間內檢測代理可用情況
time.sleep(3)
# 請求頁面text
html = requests.get(url=url.format(i), headers=header).text
soup = BeautifulSoup(html, "lxml")
# 分析元素
tr_list = soup.select_one(".fl-table").select_one("tbody").select("tr")
# 獲取元素
for td_list in tr_list:
# 高匿
if NI_MING_MODE == 1 and "高匿" in td_list.select("td")[2].text:
# http
if IP_MODE == 1:
t = threading.Thread(target=test_http, args=(
td_list.select("td")[0].text,))
t.start()
# https
elif IP_MODE == 2 and test_https(td_list.select("td")[0].text):
t = threading.Thread(target=test_https, args=(
td_list.select("td")[0].text,))
t.start()
# 透明
elif NI_MING_MODE == 2 and "透明" in td_list.select("td")[2].text:
# http
if IP_MODE == 1:
t = threading.Thread(target=test_http, args=(
td_list.select("td")[0].text,))
t.start()
# https
elif IP_MODE == 2:
t = threading.Thread(target=test_https, args=(
td_list.select("td")[0].text,))
t.start()
if __name__ == "__main__":
main()
代碼中我已附上大量註釋,希望大家都能看懂,不懂得可以私信我交流
我是落陽,謝謝你的到訪!希望大家都平平安安健健康康,話說外面疫情這麼嚴重不正好宅在家碼代碼?