Python爬蟲第三次任務

任務預覽(2天)

3.1 安裝selenium並學習
3.1.1安裝selenium並學習。
3.1.2使用selenium模擬登陸163郵箱。
注:163郵箱直通點:https://mail.163.com/

3.2 學習IP相關知識
3.2.1學習什麼是IP,爲什麼會出現IP被封,如何應對IP被封的問題。
3.2.2抓取西刺代理,並構建自己的代理池。
注:西刺直通點:https://www.xicidaili.com/

3.1 安裝selenium並學習

3.1.1安裝selenium並學習。
Selenium 是一個自動化測試工具,利用它我們可以驅動瀏覽器執行特定的動作,如點擊、下拉等等操作,對於一些 JavaScript 渲染的頁面來說,此種抓取方式非常有效,下面我們來看下 Selenium 的安裝過程。
安裝:
可以直接使用pip安裝:

pip3 install selenium

安裝之後,需要驗證安裝:
可以導入一下selenium包,如果沒有報錯,則證明安裝成功。

import selenium

但這樣還不夠,我們還需要瀏覽器如 Chrome、Firefox 等瀏覽器來配合 Selenium 工作。這裏,我只介紹Chrome如何配合selenium,其他有興趣可以自行百度
首先需要下載一個 Chrome 瀏覽器。
隨後我們需要安裝一個 ChromeDriver 才能驅動 Chrome 瀏覽器完成相應的操作,下面我們來介紹下怎樣安裝 ChromeDriver。
第一步:查看瀏覽器版本
點擊 Chrome 的菜單,幫助->關於 Chrome,即可查看 Chrome 的版本號
在這裏插入圖片描述
第二步:下載ChromeDriver
打開 ChromeDriver 的官方網站,鏈接爲:https://sites.google.com/a/chromium.org/chromedriver/downloads。
下載自己對應的版本
在這裏插入圖片描述

ChromeDriver版本 Support Chrome版本
2.46 V71-73
2.45 V70-72
2.44 V69-71
2.43 V69-71
2.42 V68-70
2.41 V67-69
2.40 V66-68
2.39 V66-68
2.38 V65-67
2.37 V64-66
2.36 V63-65
2.35

也可以去鏡像網站下載https://chromedriver.storage.googleapis.com/index.html
在這裏插入圖片描述
3.1.2使用selenium模擬登陸163郵箱。
在這裏插入圖片描述
由於賬號密碼登錄的輸入框在iframe中,所以我們先用switch_to.frame()切換到iframe中,在通過獲取節點的方式獲取賬號的input、密碼的input、登錄按鈕。

from time import sleep
from selenium import webdriver

'''
    email是郵箱信息;
    password是密碼信息
'''
def login(email, password):
    URL = "http://mail.163.com/"
    browser = webdriver.Chrome()
    browser.get(URL)
    sleep(5)
    browser.switch_to.frame(0)
    input_email = browser.find_element_by_name("email")     #獲取填郵箱的input
    input_email.send_keys(email)    #填入郵箱信息
    input_name = browser.find_element_by_name("password")   #獲取密碼的input
    input_name.send_keys(password)  #填入密碼信息
    button_login = browser.find_element_by_id("dologin")    #獲取登錄按鈕
    button_login.click()    #點擊登錄按鈕


if __name__ == '__main__':
    email = input("請輸入你的郵箱賬號:(可省略後綴)")
    password = input("請輸入你的密碼:")
    login(email, password)

在這裏插入圖片描述
在這裏插入圖片描述

3.2 學習IP相關知識

3.2.1學習什麼是IP,爲什麼會出現IP被封,如何應對IP被封的問題。
什麼是IP
IP是分配給用戶上網使用的網際協議(英語:Internet Protocol, IP)的設備的數字標籤。每個上網的人都有一個自己的IP。
爲什麼會出現IP被封
許多網站擁有防爬蟲機制,爲了防止一個IP突然在短時間內進行大量訪問。
如何應對IP被封的問題
1.僞造User-Agent,cookies等
2.使用代理IP
3.在每次重複爬取之間設置一個隨機時間間隔
3.2.2抓取西刺代理,並構建自己的代理池。
分析網頁:
在這裏插入圖片描述
不難看出,ip地址的信息在<tr class=“odd”>和<tr class>中,所以我們可以抓取tr來獲得這些ip的地址,端口,和協議。
但是,我在這裏使用了另外一種方式,將抓取<td>,每8個<td>就是一組IP地址

import requests
from bs4 import BeautifulSoup

def get_html(url):
    HEADERS = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 ''(KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
    response = requests.get(url, headers=HEADERS)
    response.encoding = 'utf-8'
    if response.status_code == 200:
        return response.text
    return None

def get_ip(text):
    ip_list = []
    soup = BeautifulSoup(text, 'html.parser')
    ips = soup.find(id='ip_list').find_all('td')
    n = (int)(len(ips)/8)   #通過td個數除以8得到有多少個ip
    for i in range(n):      #通過IP的個數來推出哪些是ip,port,protocol
        ip = ips[8*i+1].text
        port = ips[8*i+2].text
        protocol = ips[8*i+5].text
        if protocol in ('HTTP', 'HTTPS', 'http', 'https'):
            ip_list.append(f'{protocol}://{ip}:{port}')
    return ip_list

if __name__ == '__main__':
    url = 'https://www.xicidaili.com/'
    html = get_html(url)
    ip_list = get_ip(html)
    print(ip_list)

這次一共獲得100個ip
在這裏插入圖片描述

使用代理,並檢測IP是否有用

這裏就是簡單的將抓到的IP,去訪問百度,如果能成功訪問百度,則有用。

import requests
from bs4 import BeautifulSoup


def get_html(url):
    HEADERS = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 ''(KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
    response = requests.get(url, headers=HEADERS)
    response.encoding = 'utf-8'
    if response.status_code == 200:
        return response.text
    return None

def get_ip(text):
    ip_list = []
    soup = BeautifulSoup(text, 'html.parser')
    ips = soup.find(id='ip_list').find_all('td')
    n = (int)(len(ips)/8)   #通過td個數除以8得到有多少個ip
    for i in range(n):      #通過IP的個數來推出哪些是ip,port,protocol
        ip = ips[8*i+1].text
        port = ips[8*i+2].text
        protocol = ips[8*i+5].text
        if protocol in ('HTTP', 'HTTPS', 'http', 'https'):
            ip_list.append(f'{protocol}://{ip}:{port}')
    return ip_list


def check_ip(ip):
    url = 'http://www.baidu.com'
    user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
    headers = {'User-Agent': user_agent}
    proxies = {}
    if ip.startswith(('HTTPS', 'https')):
        proxies['https'] = ip
    else:
        proxies['http'] = ip
    try:
        r = requests.get(url, headers=headers, proxies=proxies, timeout=10)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        if r.status_code == 200:
            print('有效代理IP: ' + ip)
            return True
        else:
	        print('無效代理IP: ' + ip)
            return False
    except:
        print('無效代理IP: ' + ip)
        return False

if __name__ == '__main__':
    url = 'https://www.xicidaili.com/'
    html = get_html(url)
    ip_list = get_ip(html)
    print(ip_list)
    ip_use_list = []
    for ip in ip_list:
        result = check_ip(ip)
        if(result):
            ip_use_list.append(ip)
    print("有效代理IP:")
    print(ip_use_list)

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章