網絡爬蟲之信息提取011

原創

2020-04-24 20:33

import re

import requests
from bs4 import BeautifulSoup
#獲取html源代碼
r = requests.get("http://python123.io/ws/demo.html")
demo = r.text
#輸出源代碼
print(demo)
print("==========")
#解析網頁的HTML代碼
soup = BeautifulSoup(demo,"html.parser")
#輸出網址
for link in soup.find_all('a'):
    print(link.get('href'))
print("===========")
#輸出名字是a的標籤，輸出名字是a和b的標籤
print(soup.find_all('a'))
print(soup.find_all(['a','b']))
print("===========")
#遍歷出所有標籤的名字
for tag in soup.find_all(True):
    print(tag.name)
print("===========")
#遍歷出標籤名是b開頭的標籤名
for tag in soup.find_all(re.compile('b')):
    print(tag.name)
#輸出標籤名是p並且屬性包含course字符串的標籤
print(soup.find_all('p','course'))
#輸出屬性爲id='link1'的標籤
print(soup.find_all(id='link1'))
#利用正則表達式輸出id=link開頭的屬性
print(soup.find_all(id=re.compile('link')))
print("========")
#利用rcursive來決定是否對子孫節點進行檢索
print(soup.find_all('a',recursive=False))

#查找
soup.find_all(string='Basic Python')
#利用正則表達式查找
soup.find_all(string=re.compile("python"))

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

網絡爬蟲之信息提取011

Spring Cloud 部署時如何使用 Kubernetes 作爲註冊中心和配置中心

網絡爬蟲信息提取實戰之scrapy框架16

網絡爬蟲信息提取實戰之scrapy框架股票信息爬取17

網絡爬蟲信息提取實戰之股票數據15

網絡爬蟲信息之實戰淘寶書包信息爬取14

網絡爬蟲信息提取之實例大學排名012

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結