Beautiful Soup是Python的一個HTML或XML的解析庫,我們可以用它來方便地從網頁中提取數據。它擁有強大的API和多樣的解析方式,本節就來了解下它的安裝方式。
1. 相關鏈接
2. 準備工作
Beautiful Soup的HTML和XML解析器是依賴於lxml庫的,所以在此之前請確保已經成功安裝好了lxml庫,具體的安裝方式參見上節。
3. pip安裝
目前,Beautiful Soup的最新版本是4.x版本,之前的版本已經停止開發了。這裏推薦使用pip來安裝,安裝命令如下:
pip3 install beautifulsoup4
命令執行完畢之後即可完成安裝。
4. wheel安裝
當然,我們也可以從PyPI下載wheel文件安裝,鏈接如下:https://pypi.python.org/pypi/beautifulsoup4
然後使用pip安裝wheel文件即可。
5. 驗證安裝
安裝完成之後,可以運行下面的代碼驗證一下:
from bs4 import BeautifulSoup soup = BeautifulSoup('<p>Hello</p>', 'lxml') print(soup.p.string)
運行結果如下:
Hello
如果運行結果一致,則證明安裝成功。
注意,這裏我們雖然安裝的是beautifulsoup4這個包,但是在引入的時候卻是bs4。這是因爲這個包源代碼本身的庫文件夾名稱就是bs4,所以安裝完成之後,這個庫文件夾就被移入到本機Python3的lib庫裏,所以識別到的庫文件名就叫作bs4。
因此,包本身的名稱和我們使用時導入的包的名稱並不一定是一致的。