關於爬蟲，你需要知道的BeautifulSoup(二)

原創

2019-02-19 14:02

日拱一卒|數據挖掘015

閱讀本文前建議先瀏覽：

關於爬蟲，你需要知道的BeautifulSoup(一)

本篇推送涉及的代碼鏈接：

二、使用BeautifulSoup

（二）遍歷文檔樹

遍歷文檔樹，即從根節點 html 標籤開始遍歷，直到找到目標元素爲止，遍歷的一個缺陷是，如果你要找的內容在文檔的末尾，那麼它要遍歷整個文檔才能找到它，速度上就慢了。因此還需要配合第二種方法：搜索文檔樹。

以下面HTML文本爲例

獲取標籤節點可以直接通過 .標籤名方式獲得

1.下行遍歷

2.上行遍歷

遍歷所有先輩節點，包括soup本身，所以要區別判斷

3.平行遍歷

遍歷文檔樹的另一個缺點是隻能獲取到與之匹配的第一個子節點，例如，如果有兩個相鄰的 p 標籤時，第二個標籤就沒法通過.p的方式獲取，這是需要借用 next_sibling 屬性獲取相鄰的節點。

需要注意：平行遍歷發生在同一個父節點下的各節點間

小結

（三）搜索文檔樹

搜索文檔樹是通過指定標籤名來搜索元素，還可以通過指定標籤的屬性值來精確定位某個節點元素，最常用的兩個方法就是 find 和 find_all。

find 方法跟 find_all 類似，唯一不同的地方是，它返回的單個 Tag 對象而非列表，如果沒找到匹配的節點則返回 None。如果匹配多個 Tag，只返回第0個。

注意：

find 和 find_all。這兩個方法在 BeatifulSoup 和 Tag 對象上都可以被調用。

補充：獲取標籤裏面內容

獲取標籤裏面內容，除了可以使用 .string 之外，還可以使用 get_text 方法，不同的地方在於前者返回的一個 NavigableString 對象，後者返回的是 unicode 類型的字符串。實際場景中我們一般使用 get_text 方法獲取標籤中的內容。

參考資料：
1.Python爬蟲知識點梳理
2.HTML文本解析庫BeautifulSoup
3.Python網絡爬蟲與信息提取

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

BeautifulSoup庫實戰-爬取豆瓣top250圖書

2019-02-21 13:24:32

關於爬蟲，你需要知道的BeautifulSoup(一)

2019-02-16 14:05:35

requests庫實戰-爬取豆瓣top250的圖書

2019-02-09 13:53:36

關於爬蟲，你需要知道的requests庫

2019-02-05 14:10:15

關於爬蟲，你需要知道的re庫

2019-02-04 13:28:24

關於爬蟲，你需要曉得的正則表達式

2019-02-03 13:36:47

關於爬蟲，你需要了解的HTTP協議

2019-02-01 13:31:18

爬蟲|URL和URI有什麼不一樣

2019-02-01 13:31:18

關於爬蟲，你需要知道的HTML知識

2019-01-30 13:25:16

爬蟲|崔神的乾貨總結

2019-01-29 13:57:03

爬蟲|網絡類型和分層協議

2019-01-17 13:27:49

一些可用於研究的GIS數據資源

國內的情況就不用說了，基本上是很難找到可以用於研究的GIS數據資源的。要麼就是收費，免費的即使能找到，能否合法合規的進行使用也是一個問題。地理信息數據還是國外比較開放一些，相當多的政府組織或者公益機構對公衆開放了下載渠道，大家可以適度獲取並

2024-05-07 14:31:18

如何在低代碼平臺中引用 JavaScript ？

引言在當今快速發展的數字化時代，企業對業務應用的需求日益複雜且多元。低代碼開發平臺作爲一個創新的解決方案，以直觀易用的設計理念，打破了傳統的編程壁壘，讓非技術人員也能輕鬆構建功能完備的Web應用程序，無需深入編碼。這一特性極大地簡化了應用

葡萄城技術團隊

2024-05-07 14:30:48

如何使用 JavaScript 獲取當前頁面幀率 FPS

可以通過計算每秒 window.requestAnimationFrame 的調用頻率來做爲 FPS 值。它接收一個回調函數，該回調函數會在瀏覽器下一次重繪之前執行。所以只要我們循環調用並記錄單位時間內的調用次數就能計算當前頁面的幀率了。

2024-05-07 14:26:58

Dash 2.17版本新特性介紹

本文示例代碼已上傳至我的Github倉庫https://github.com/CNFeffery/dash-master 　　大家好我是費老師，不久前Dash發佈了其2.17.0版本，執行下面的命令進行最新版本Dash的安裝： pip

2024-05-07 14:21:37

24小時熱門文章

最新文章

最新評論文章