網絡爬蟲-3（共？）：網頁解析器實現

原創

天下我心

2019-03-26 03:12

網頁解析器的目的及四種網頁解析器的類型：

結構化解析——DOM(Document Object Model) 樹。結構如下：

網頁解析器 - Beautiful Soup - 基本語法 ↓↓↓↓↓ 【Beautiful Soup技術文檔】

1.創建BeautifulSoup對象：↓↓↓↓

from bs4 import BeautifulSoup

#根據HTML網頁字符串創建BeautifulSoup對象
soup = BeautifulSoup(
    html_doc,            #html文檔字符串
    'html.parser'        #html解析器
    from_encoding='utf8' #html文檔的編碼
)

2.搜索節點（find_all，find）：↓↓↓↓

#方法：find_all(name,attrs,string)

#查找所有標籤爲a的節點
soup.find_all('a')
#查找所有標籤爲a，連接符合/view/123.htm形式的節點
soup.find_all('a',href='/view/123.htm')
soup.find_all('a',href=re.compile(r'/view/\d+\.htm'))      #支持正則表達進行匹配內容

#查找所有標籤爲div，class爲abc，文字爲Python的節點。
soup.find_all('div',class_=‘abc’,string='Python')          #class加下劃線，是因爲python的關鍵字有class，避免衝突

3.訪問節點信息：↓↓↓↓

#得到節點：<a herf='1.html'>Python</a>

#獲取查找到的節點的標籤名稱
node.name

#獲取查找到的節點的href屬性
node['herf']

#獲取查找到的節點的鏈接文字
node.get_text()

實例測試：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

網絡爬蟲-3（共？）：網頁解析器實現

網頁解析器 - Beautiful Soup - 基本語法 ↓↓↓↓↓ 【Beautiful Soup技術文檔】

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

通義千問 2.5 “客串” ChatGPT4，你分的清嗎？

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

【C進階】int &x，int* x，int *x，int**。解釋說明

JAVA工程師面試常見問題集錦【轉載，實用乾貨，致謝原作者】

【基本題型】數據結構中基礎題型

【通信2】Wi-Fi模塊（ESP8266-01/ESP-01）入網，成功往IOT平臺POST數據！！！

【通信1】Wi-Fi模塊（ESP8266-01/ESP-01）使用流程

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結