Python爬蟲第三次任務

任務預覽（2天）

3.1 安裝selenium並學習
3.1.1安裝selenium並學習。
3.1.2使用selenium模擬登陸163郵箱。
注：163郵箱直通點：https://mail.163.com/ 。

3.2 學習IP相關知識
3.2.1學習什麼是IP，爲什麼會出現IP被封，如何應對IP被封的問題。
3.2.2抓取西刺代理，並構建自己的代理池。
注：西刺直通點：https://www.xicidaili.com/ 。

3.1 安裝selenium並學習

3.1.1安裝selenium並學習。
Selenium 是一個自動化測試工具，利用它我們可以驅動瀏覽器執行特定的動作，如點擊、下拉等等操作，對於一些 JavaScript 渲染的頁面來說，此種抓取方式非常有效，下面我們來看下 Selenium 的安裝過程。
安裝：
可以直接使用pip安裝：

pip3 install selenium

安裝之後，需要驗證安裝：
可以導入一下selenium包，如果沒有報錯，則證明安裝成功。

import selenium

但這樣還不夠，我們還需要瀏覽器如 Chrome、Firefox 等瀏覽器來配合 Selenium 工作。這裏，我只介紹Chrome如何配合selenium，其他有興趣可以自行百度
首先需要下載一個 Chrome 瀏覽器。
隨後我們需要安裝一個 ChromeDriver 才能驅動 Chrome 瀏覽器完成相應的操作，下面我們來介紹下怎樣安裝 ChromeDriver。
第一步：查看瀏覽器版本
點擊 Chrome 的菜單，幫助->關於 Chrome，即可查看 Chrome 的版本號

第二步：下載ChromeDriver
打開 ChromeDriver 的官方網站，鏈接爲：https://sites.google.com/a/chromium.org/chromedriver/downloads。
下載自己對應的版本

ChromeDriver版本	Support Chrome版本
2.46	V71-73
2.45	V70-72
2.44	V69-71
2.43	V69-71
2.42	V68-70
2.41	V67-69
2.40	V66-68
2.39	V66-68
2.38	V65-67
2.37	V64-66
2.36	V63-65
2.35

也可以去鏡像網站下載https://chromedriver.storage.googleapis.com/index.html

3.1.2使用selenium模擬登陸163郵箱。

由於賬號密碼登錄的輸入框在iframe中，所以我們先用switch_to.frame()切換到iframe中，在通過獲取節點的方式獲取賬號的input、密碼的input、登錄按鈕。

from time import sleep
from selenium import webdriver

'''
    email是郵箱信息；
    password是密碼信息
'''
def login(email, password):
    URL = "http://mail.163.com/"
    browser = webdriver.Chrome()
    browser.get(URL)
    sleep(5)
    browser.switch_to.frame(0)
    input_email = browser.find_element_by_name("email")     #獲取填郵箱的input
    input_email.send_keys(email)    #填入郵箱信息
    input_name = browser.find_element_by_name("password")   #獲取密碼的input
    input_name.send_keys(password)  #填入密碼信息
    button_login = browser.find_element_by_id("dologin")    #獲取登錄按鈕
    button_login.click()    #點擊登錄按鈕


if __name__ == '__main__':
    email = input("請輸入你的郵箱賬號:（可省略後綴）")
    password = input("請輸入你的密碼：")
    login(email, password)

3.2 學習IP相關知識

3.2.1學習什麼是IP，爲什麼會出現IP被封，如何應對IP被封的問題。
什麼是IP
IP是分配給用戶上網使用的網際協議（英語：Internet Protocol, IP）的設備的數字標籤。每個上網的人都有一個自己的IP。
爲什麼會出現IP被封
許多網站擁有防爬蟲機制，爲了防止一個IP突然在短時間內進行大量訪問。
如何應對IP被封的問題
1.僞造User-Agent，cookies等
2.使用代理IP
3.在每次重複爬取之間設置一個隨機時間間隔
3.2.2抓取西刺代理，並構建自己的代理池。
分析網頁：

不難看出，ip地址的信息在<tr class=“odd”>和<tr class>中，所以我們可以抓取tr來獲得這些ip的地址，端口，和協議。
但是，我在這裏使用了另外一種方式，將抓取<td>，每8個<td>就是一組IP地址

import requests
from bs4 import BeautifulSoup

def get_html(url):
    HEADERS = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 ''(KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
    response = requests.get(url, headers=HEADERS)
    response.encoding = 'utf-8'
    if response.status_code == 200:
        return response.text
    return None

def get_ip(text):
    ip_list = []
    soup = BeautifulSoup(text, 'html.parser')
    ips = soup.find(id='ip_list').find_all('td')
    n = (int)(len(ips)/8)   #通過td個數除以8得到有多少個ip
    for i in range(n):      #通過IP的個數來推出哪些是ip，port，protocol
        ip = ips[8*i+1].text
        port = ips[8*i+2].text
        protocol = ips[8*i+5].text
        if protocol in ('HTTP', 'HTTPS', 'http', 'https'):
            ip_list.append(f'{protocol}://{ip}:{port}')
    return ip_list

if __name__ == '__main__':
    url = 'https://www.xicidaili.com/'
    html = get_html(url)
    ip_list = get_ip(html)
    print(ip_list)

這次一共獲得100個ip

使用代理，並檢測IP是否有用

這裏就是簡單的將抓到的IP，去訪問百度，如果能成功訪問百度，則有用。

import requests
from bs4 import BeautifulSoup


def get_html(url):
    HEADERS = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 ''(KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
    response = requests.get(url, headers=HEADERS)
    response.encoding = 'utf-8'
    if response.status_code == 200:
        return response.text
    return None

def get_ip(text):
    ip_list = []
    soup = BeautifulSoup(text, 'html.parser')
    ips = soup.find(id='ip_list').find_all('td')
    n = (int)(len(ips)/8)   #通過td個數除以8得到有多少個ip
    for i in range(n):      #通過IP的個數來推出哪些是ip，port，protocol
        ip = ips[8*i+1].text
        port = ips[8*i+2].text
        protocol = ips[8*i+5].text
        if protocol in ('HTTP', 'HTTPS', 'http', 'https'):
            ip_list.append(f'{protocol}://{ip}:{port}')
    return ip_list


def check_ip(ip):
    url = 'http://www.baidu.com'
    user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
    headers = {'User-Agent': user_agent}
    proxies = {}
    if ip.startswith(('HTTPS', 'https')):
        proxies['https'] = ip
    else:
        proxies['http'] = ip
    try:
        r = requests.get(url, headers=headers, proxies=proxies, timeout=10)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        if r.status_code == 200:
            print('有效代理IP: ' + ip)
            return True
        else:
	        print('無效代理IP: ' + ip)
            return False
    except:
        print('無效代理IP: ' + ip)
        return False

if __name__ == '__main__':
    url = 'https://www.xicidaili.com/'
    html = get_html(url)
    ip_list = get_ip(html)
    print(ip_list)
    ip_use_list = []
    for ip in ip_list:
        result = check_ip(ip)
        if(result):
            ip_use_list.append(ip)
    print("有效代理IP：")
    print(ip_use_list)

Python爬蟲第三次任務

任務預覽（2天）

3.1 安裝selenium並學習

3.2 學習IP相關知識

使用代理，並檢測IP是否有用

詐騙（殺豬盤）網站進行滲透測試

Python 潮流週刊#50：我最喜歡的 Python 3.13 新特性！

外行也能讀懂的網絡硬件設備功能原理速成

可汗學院：統計學第四次學習

可汗學院：統計學第三次學習

Python爬蟲第四次任務

可汗學院：統計學第二次學習

Python爬蟲第二次任務

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結