Beautiful Soup 是一個可以從HTML或XML文件中提取數據的Python庫.它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間.
安裝:$ pip install beautifulsoup4
Beautiful Soup 的介紹,具體參考文檔:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
導入BeautifulSoup,獲取網頁源碼中某一屬性的值,用得最多的方法就是find,find_all
"""獲取'https://blog.csdn.net/jusulysunbeamy'網頁源碼中data-articleid屬性的值"""
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
#打印出a_url頁面的data-articleid屬性的值
a_url = 'https://blog.csdn.net/jusulysunbeamy'
html = requests.get(a_url)
pagesource = html.text
print(pagesource)
soup = BeautifulSoup(html.content, 'html.parser')
ds = soup.find('div', class_='article-list').find_all('div', class_='article-item-box csdn-tracking-statistics')#進行條件匹配查找
for i in ds: #循環出我們查找到的數據
print(i.attrs['data-articleid']) #打印出屬性的值