Python簡單爬蟲小結

網絡爬蟲

網絡爬蟲（又被稱爲網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱爲網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。

傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。

爬蟲的合法性

目前法律尚在建立和完善中，現在的爬蟲暫時還是灰色地帶，但是在爬取網站的時候，我們需要注意不要去爬取網站後臺的私密敏感信息，否則容易吃官司。

關於網站的Robots文件

大多數網站都會定義robots.txt文件，對爬蟲進行一些限制。
在網頁域名後面直接加上 ‘/robots.txt’ 然後回車就可以看到該網頁的robots文件，格式如：

User-agent:  Baiduspider
Allow:  /article
Allow:  /oshtml
Disallow:  /product/
Disallow:  /

表示禁止'Baiduspider'爬取除Allow規定的其他頁面

我們在寫爬蟲的時候也應該限制自己的爬蟲遵守所爬取網頁的Robots協議。

一個簡單爬蟲基本流程

數據採集（網頁下載）—> 數據處理（網頁解析）—> 數據存儲（將有用的信息持久化）

設定抓取目標（種子頁面/起始頁面）並獲取網頁。
當服務器無法訪問時，按照指定的重試次數嘗試重新下載頁面。
在需要的時候設置用戶代理或隱藏真實IP，否則可能無法訪問頁面。
對獲取的頁面進行必要的解碼操作然後抓取出需要的信息。
在獲取的頁面中通過某種方式（如正則表達式）抽取出頁面中的鏈接信息。
對鏈接進行進一步的處理（獲取頁面並重覆上面的動作）。
將有用的信息進行持久化以備後續的處理。

常用工具：

下載數據（種子頁面） - urllib / requests / aiohttp
解析數據 - re / lxml / beautifulsoup4（bs4）/ pyquery
緩存和持久化 - pymysql / redis / sqlalchemy / peewee / pymongo
生成摘要 - hashlib
序列化和壓縮 - pickle / json / zlib
調度器 - 進程 / 線程 / 協程

爬蟲注意事項

處理相對鏈接：有時候我們從頁面中獲取的鏈接是一個相對鏈接，需要將獲取到的連接與URL前綴進行拼接( urllib.parse中的urljoin() )
設置代理業務：有些網站限制了訪問的區域，一些爬蟲就需要隱藏自己的身份(也就是設置使用代理服務器，urllib.request中的ProxyHandler，國內免費代理服務如：西刺代理)
限制下載速度：如果爬蟲獲取網頁的速度過快，那麼一些網站就會對對應ip進行封禁
避免爬蟲陷阱：一些網站會動態生成內容，這會導致產生無限多的頁面，可以通過記錄到達當前頁面經過了多少個鏈接（鏈接深度）來解決該問題，當達到事先設定的最大深度時爬蟲就不再向隊列中添加該網頁中的鏈接。
SSl相關問題：使用urlopen打開一個HTTPS鏈接時會驗證一次SSL證書，如果不做出處理會產生錯誤提示“SSL: CERTIFICATE_VERIFY_FAILED”，可以通過兩種方式加以解決：
1，使用未經驗證的上下文

import ssl

request = urllib.request.Request(url='...', headers={...}) 
context = ssl._create_unverified_context()
web_page = urllib.request.urlopen(request, context=context)

2，設置全局的取消證書驗證

import ssl

ssl._create_default_https_context = ssl._create_unverified_context

從搜狐體育抓取nba相關新聞標題和鏈接

導入需要用到的模塊

from urllib.error import URLError
from urllib.request import urlopen

import re
import pymysql
import ssl

from pymysql import Error

通過指定的字符集對頁面進行解碼(不是每個網站都將字符集設置爲utf-8)

# charsets=('utf-8',)默認爲utf-8
def decode_page(page_bytes, charsets=('utf-8',)):
    page_html = None
    for charset in charsets:
        try:
            page_html = page_bytes.decode(charset)
            break
        except UnicodeDecodeError:
            pass
            # logging.error('Decode:', error)
    return page_html

獲取頁面的HTML代碼(通過遞歸實現指定次數的重試操作)

def get_page_html(seed_url, *, retry_times=3, charsets=('utf-8',)):
    page_html = None
    try:
        page_html = decode_page(urlopen(seed_url).read(), charsets)
    except URLError:
        # logging.error('URL:', error)
        if retry_times > 0:
            return get_page_html(seed_url, retry_times=retry_times - 1,
                                 charsets=charsets)
    return page_html

從頁面中提取需要的部分(通常是鏈接，也可以通過正則表達式進行指定)

def get_matched_parts(page_html, pattern_str, pattern_ignore_case=re.I):
    pattern_regex = re.compile(pattern_str, pattern_ignore_case)
    return pattern_regex.findall(page_html) if page_html else []

運行爬蟲程序並對指定的數據進行持久化操作

def start_crawl(seed_url, match_pattern, *, max_depth=-1):
    conn = pymysql.connect(host='localhost', port=3306,
                           database='crawler', user='root',
                           password='123456', charset='utf8')
    try:
        with conn.cursor() as cursor:
            url_list = [seed_url]
            # 通過下面的字典避免重複抓取並控制抓取深度
            visited_url_list = {seed_url: 0}
            while url_list:
                current_url = url_list.pop(0)
                depth = visited_url_list[current_url]
                if depth != max_depth:
                    # 嘗試用utf-8/gbk/gb2312三種字符集進行頁面解碼
                    page_html = get_page_html(current_url, charsets=('utf-8', 'gbk', 'gb2312'))
                    links_list = get_matched_parts(page_html, match_pattern)
                    param_list = []
                    for link in links_list:
                        if link not in visited_url_list:
                            visited_url_list[link] = depth + 1
                            page_html = get_page_html(link, charsets=('utf-8', 'gbk', 'gb2312'))
                            headings = get_matched_parts(page_html, r'<h1>(.*)<span')
                            if headings:
                                param_list.append((headings[0], link))
                    cursor.executemany('insert into tb_result values (default, %s, %s)',
                                       param_list)
                    conn.commit()
    except Error:
        pass
        # logging.error('SQL:', error)
    finally:
        conn.close()


def main():
    ssl._create_default_https_context = ssl._create_unverified_context
    start_crawl('http://sports.sohu.com/nba_a.shtml',
                r'<a[^>]+test=a\s[^>]*href=["\'](.*?)["\']',
                max_depth=2)


if __name__ == '__main__':
    main()

使用BeautifulSoup簡單抓取搜狐體育nba相關頁面

import re

from bs4 import BeautifulSoup

import requests


def main():
    # 通過requests第三方庫的get方法獲取頁面
    resp = requests.get('http://sports.sohu.com/nba_a.shtml')
    # 對響應的字節串（bytes）進行解碼操作（搜狐的部分頁面使用了GBK編碼）
    html = resp.content.decode('gbk')
    # 創建BeautifulSoup對象來解析頁面（相當於javascript的DOM）
    soup = BeautifulSoup(html, 'lxml')
    # 通過CSS先擇器語法查找並通過循環進行處理
    for elem in soup.select('a[test=a]'):
        # 通過attrs屬性（字典）獲取元素的屬性值
        link_url = elem.attrs['href']
        resp = requests.get(link_url)
        bs_sub = BeautifulSoup(resp.text, 'lxml')
        # 使用正則表達式對獲取的數據做進一步的處理
        print(re.sub(r'[\r\n]', '', bs_sub.select_one('h1').text))
        # print(bs_sub.find('h1').text)


if __name__ == '__main__':
    main()

Python簡單爬蟲小結

網絡爬蟲

爬蟲的合法性

關於網站的Robots文件

一個簡單爬蟲基本流程

爬蟲注意事項

從搜狐體育抓取nba相關新聞標題和鏈接

使用BeautifulSoup簡單抓取搜狐體育nba相關頁面

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

.NET週刊【5月第2期 2024-05-12】

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（一）部署K8s

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（三）數據卷掛載NFS（網絡文件系統）

django2.0 + xadmin2.0 一次性選擇多張圖片並存儲的一個方法, 以及詳情頁面多圖展示

django2.0 + xadmin2.0 一次性選擇多張圖片並存儲的一個方法

django2.0+xadmin2.0 導出選項增加導出WORD功能

django2.0 + xadmin2.0 只導出所勾選指定的數據,而非全部或則過濾後的所有數據

pandas取兩個dataframe中不同的行

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結