關於爬蟲，你需要知道的BeautifulSoup(一)

原創

2019-02-16 14:05

日拱一卒|數據挖掘014

本篇推送涉及的代碼鏈接：

數據爬下來，大部分情況是 HTML 文本，也有少數是基於 XML 格式或者 Json 格式的數據，要想正確處理這些數據，你要熟悉每種數據類型的解決方案，比如 JSON 數據可以直接使用 Python自帶的模塊 json，對於 HTML 數據，可以使用 BeautifulSoup、lxml 等庫去處理，對於 xml 數據，除了可以使用 untangle、xmltodict 等第三方庫（Python之禪劉志軍）。

Beautiful Soup 是一個可以從HTML或XML文件中提取數據的Python庫，通過 BeautifulSoup，只需要用很少的代碼就可以提取出 HTML 中任何感興趣的內容，此外，它還有一定的 HTML 容錯能力，對於一個格式不完整的HTML 文檔，它也可以正確處理。

Beautiful Soup官方文檔

一、安裝

首先pip install beautifulsoup4安裝requests庫

接下來導入beautifulsoup4並做個小測試

二、使用BeautifulSoup

僅用兩行代碼就可以使用BeautifulSoup

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>data</p>', 'html.parser')

構建一個 BeautifulSoup 對象需要兩個參數:

<p>data</p> 解析的 HTML 文本字符串
html.parser 告訴 BeautifulSoup 使用哪個解析器來解析 HTML

Beautiful Soup庫，也叫beautifulsoup4 或 bs4，約定引用方式如下，即主要是用BeautifulSoup類

from bs4 import BeautifulSoup或import bs4

HTML 標籤

在詳細介紹BeautifulSoup之前，我們先來看看有關HTML標籤的知識

HTML 是一個樹形組織結構

Beautiful Soup庫是解析、遍歷、維護“標籤樹”的功能庫

它由很多標籤（Tag）組成，比如 html、head、title等等都是標籤
一個標籤對構成一個節點，比如 <html>...</html>是一個根節點
節點之間存在某種關係，比如 h1 和 p 互爲鄰居，他們是相鄰的兄弟（sibling）節點
h1 是 body 的直接子（children）節點，還是 html 的子孫（descendants）節點
body 是 p 的父（parent）節點，html 是 p 的祖輩（parents）節點
嵌套在標籤之間的字符串是該節點下的一個特殊子節點，比如 “hello, world” 也是一個節點，只不過沒名字。

關於HTML更多可以看關於爬蟲，你需要知道的HTML知識

如上圖，標籤名稱爲p

HTML文檔，標籤樹，BeautifulSoup類三者是等價的，即BeautifulSoup對應一個HTML/XML文檔的全部內容

（一）基本元素

下面介紹BeautifulSoup類的基本元素：

1.Tag標籤

任何存在於HTML語法中的標籤都可以用soup.<tag>訪問獲得，如上是獲取a標籤的信息。當HTML文檔中存在多個相同<tag>對應內容時，soup.<tag>返回第一個。

2.Name 名字

每個<tag>都有自己的名字，通過<tag>.name獲取，字符串類型。

3.Attributes 屬性

一個<tag>可以有0或多個屬性，字典類型

4.NavigableString 標籤內非屬性字符串

NavigableString可以跨越多個層次

5.Comment 註釋

Comment是一種特殊類型

小結：五大類基本元素

下一篇推文將介紹基於bs4的HTML內容遍歷方法和搜索方法

參考資料：
1.Python爬蟲知識點梳理
2.HTML文本解析庫BeautifulSoup
3.Python網絡爬蟲與信息提取

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

BeautifulSoup庫實戰-爬取豆瓣top250圖書

2019-02-21 13:24:32

關於爬蟲，你需要知道的BeautifulSoup(二)

2019-02-19 14:02:51

requests庫實戰-爬取豆瓣top250的圖書

2019-02-09 13:53:36

關於爬蟲，你需要知道的requests庫

2019-02-05 14:10:15

關於爬蟲，你需要知道的re庫

2019-02-04 13:28:24

關於爬蟲，你需要曉得的正則表達式

2019-02-03 13:36:47

關於爬蟲，你需要了解的HTTP協議

2019-02-01 13:31:18

爬蟲|URL和URI有什麼不一樣

2019-02-01 13:31:18

關於爬蟲，你需要知道的HTML知識

2019-01-30 13:25:16

爬蟲|崔神的乾貨總結

2019-01-29 13:57:03

爬蟲|網絡類型和分層協議

2019-01-17 13:27:49

一些可用於研究的GIS數據資源

國內的情況就不用說了，基本上是很難找到可以用於研究的GIS數據資源的。要麼就是收費，免費的即使能找到，能否合法合規的進行使用也是一個問題。地理信息數據還是國外比較開放一些，相當多的政府組織或者公益機構對公衆開放了下載渠道，大家可以適度獲取並

2024-05-07 14:31:18

如何在低代碼平臺中引用 JavaScript ？

引言在當今快速發展的數字化時代，企業對業務應用的需求日益複雜且多元。低代碼開發平臺作爲一個創新的解決方案，以直觀易用的設計理念，打破了傳統的編程壁壘，讓非技術人員也能輕鬆構建功能完備的Web應用程序，無需深入編碼。這一特性極大地簡化了應用

葡萄城技術團隊

2024-05-07 14:30:48

如何使用 JavaScript 獲取當前頁面幀率 FPS

可以通過計算每秒 window.requestAnimationFrame 的調用頻率來做爲 FPS 值。它接收一個回調函數，該回調函數會在瀏覽器下一次重繪之前執行。所以只要我們循環調用並記錄單位時間內的調用次數就能計算當前頁面的幀率了。

2024-05-07 14:26:58

Dash 2.17版本新特性介紹

本文示例代碼已上傳至我的Github倉庫https://github.com/CNFeffery/dash-master 　　大家好我是費老師，不久前Dash發佈了其2.17.0版本，執行下面的命令進行最新版本Dash的安裝： pip

2024-05-07 14:21:37

24小時熱門文章

最新文章

最新評論文章