python+selenium小結15:導入BeautifulSoup,獲取網頁源碼中某一屬性的值

Beautiful Soup 是一個可以從HTML或XML文件中提取數據的Python庫.它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間.

安裝:$ pip install beautifulsoup4

Beautiful Soup 的介紹,具體參考文檔:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

導入BeautifulSoup,獲取網頁源碼中某一屬性的值,用得最多的方法就是find,find_all

 

 

"""獲取'https://blog.csdn.net/jusulysunbeamy'網頁源碼中data-articleid屬性的值"""

#!/usr/bin/env python 
# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup

#打印出a_url頁面的data-articleid屬性的值
a_url = 'https://blog.csdn.net/jusulysunbeamy'
html = requests.get(a_url)
pagesource = html.text
print(pagesource)
soup = BeautifulSoup(html.content, 'html.parser') 
ds = soup.find('div', class_='article-list').find_all('div', class_='article-item-box csdn-tracking-statistics')#進行條件匹配查找
for i in ds: #循環出我們查找到的數據
    print(i.attrs['data-articleid']) #打印出屬性的值

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章