如何使用Beautiful Soup 的CSS選擇器獲取節點信息

from bs4 import BeautifulSoup

html = '''
<html>
<head>
    <meta charset="UTF-8">
    <title>Beautiful Soup</title>
</head>
<body>
<div>
    <ul>
        <li class="item" value1="1234", value2="hello world"><a href="https://www.xxx.com">ruochen</a></li>
        <li class="item2"><a href="https://www.xxx.com">若塵</a></li>
    </ul>
    <button id="button1">確定</button>
    <ul>
        <li class="item"><a href="https://www.taobao.com">淘寶</a></li>
        <li id="myli" class="item4"><a href="https://www.microsoft">微軟</a></li>
        <li class="item5"><a href="https://www.google.com">谷歌</a></li>
    </ul>
</div>
<body>
'''

soup = BeautifulSoup(html, 'lxml')
tags = soup.select('.item')
print(tags)
print(type(tags))
for tag in tags:
    print(tag)

[<li class="item" value1="1234" value2="hello world"><a href="https://www.xxx.com">ruochen</a></li>, <li class="item"><a href="https://www.taobao.com">淘寶</a></li>]
<class 'list'>
<li class="item" value1="1234" value2="hello world"><a href="https://www.xxx.com">ruochen</a></li>
<li class="item"><a href="https://www.taobao.com">淘寶</a></li>

tags= soup.select('#myli')
print(tags)

[<li class="item4" id="myli"><a href="https://www.microsoft">微軟</a></li>]

tags = soup.select('a')
for tag in tags:
    print(tag)
    print(tag['href'])

<a href="https://www.xxx.com">ruochen</a>
https://www.xxx.com
<a href="https://www.xxx.com">若塵</a>
https://www.xxx.com
<a href="https://www.taobao.com">淘寶</a>
https://www.taobao.com
<a href="https://www.microsoft">微軟</a>
https://www.microsoft
<a href="https://www.google.com">谷歌</a>
https://www.google.com

持續更新中。。。。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

72 - 使用Beautiful Soup 的CSS選擇器獲取節點信息

如何使用Beautiful Soup 的CSS選擇器獲取節點信息

《日本蠟燭圖》讀書筆記 & 技術分析回測

《期貨-市場技術分析》讀書筆記

Python多線程編程深度探索：從入門到實戰

mongodb處理json數據很好

頂級 Javaer 都在用的 20 個類庫，真香！

[轉帖]cpupower

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

圖的應用——最短路徑

馮 · 諾依曼結構原理及層次結構分析

基於ECS搭建FTP服務

Scrapy 爬取懶人圖庫（自定義下載中間件、selenium）

遞歸全排列問題（兩種方法 Java實現）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結