【Python】bs4庫

原創

2020-06-24 22:10

from bs4 import BeautifulSoup
import re

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

'''根據網頁字符串創建soup對象'''
soup = BeautifulSoup(
    html_doc,               # HTML 文檔字符串
    'html.parser',          # HTML 解析器
    from_encoding='utf-8',  # HTML 文檔編碼
)

print(' Get all links')
links = soup.find_all('a')
for link in links:
    print(link.name, link['href'], link.get_text())

print(' Get Lacie"s links')
links_node = soup.find('a', href='http://example.com/lacie')  # 應使用find方法取標籤。
print(links_node.name, links_node['href'], links_node.get_text())

print(' Get regular expression')
links_node = soup.find('a', href=re.compile(r"ill"))  # 應使用find方法取標籤。
print(links_node.name, links_node['href'], links_node.get_text())

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

解決fatal error: 'ffi.h' file not found

python安裝rumps時，出現錯誤： Modules/objc/libffi_support.h:4:10: fatal error: 'ffi.h' file not found #include "ffi.h"

2020-07-06 23:51:42

解決SyntaxError: Non-ASCII character ‘\xe5′ in file

問題：編寫Python時，嘗試使用中文字符出現： SyntaxError: Non-ASCII character ‘\xe5′ in file 原因是Python的默認編碼文件是用的ASCII碼，文件中使用了中文等非英語字符。

2020-07-06 23:51:42

tqdm模塊在處理文件閱讀時，如何顯示出進度條？

問題提出最近，使用tqdm模塊，對於大文件的閱讀進行進度監控。然而我發現有個問題，即在tqdm模塊使用一定沒錯的情況下，進度條死活打印不出來。情況如下：如上圖所示，這樣read file是沒有進度條顯示的。問題解決先說爲什麼，再

illusion_小驴

2020-07-06 17:13:31

用Python憶童年，最終還真把模擬器跑起來了

夢想橡皮擦，一個勵志成爲IT圈熟透了的人寫在前面故事的起源非常簡單，我無意中看到了復古遊戲機，然後聯想到了兒時的回憶，心想能不能用Python跑個模擬器出來，然後運行一下黑白遊戲。其實想想也就罷了，沒想到搗鼓了一路，最終還

梦想橡皮擦

2020-07-05 06:44:21

python庫之matplotlib

一、簡單的繪圖流程 1、通過figure()函數創建畫布，可以在創建時更改畫布的背景顏色，背景顏色可以有助於子圖座標及座標軸的顯示 2、通過add_subplot()函數在畫布上進行子圖的創建，將原有的單個畫布分割爲多個子圖，

2020-07-01 16:18:33

Gene Ontology 的GO註釋的可視化

Gene Ontology 的GO註釋的可視化@TOC 利用goatools和PyGraphviz可視化最近因爲項目的原因，需要對GO terms的註釋進行可視化，在此之前已經使用visio自己畫了可視化的圖(天啊，工作量真的好

2020-06-29 13:44:31

Python 模塊之 matplotlib

matplotlib是受MATLAB的啓發構建的。MATLAB是數據繪圖領域廣泛使用的語言和工具。MATLAB語言是面向過程的。利用函數的調用，MATLAB中可以輕鬆的利用一行命令來繪製直線，然後再用一系列的函數調整結果。 matplot

奔跑的大西吉

2020-06-26 13:22:29

教女友學會keras-yolov3目標檢測詳解——適合新手

現在網上能找到的博客我現在看起來很明白，雖然講的很詳細，但是對於幾天前的我真的看不明白，因爲新手會遇到各種各樣毫無徵兆的問題，所以我決定寫一篇面向新手的如何去使用 yolo 和如何去做自己的數據集來訓練屬於自己的模型。因爲我也是

霍格沃茨电气魔法师

2020-06-23 21:16:52

Python安裝 chardet

Chardet：通用字符編碼檢測器 chardet 3.0.4官網鏈接https://pypi.org/project/chardet/#files 下載—>解壓文件後，找到chardet文件夾複製在python的安裝路徑下

霍格沃茨电气魔法师

2020-06-23 21:16:52

教女朋友學會用win10+yolov3+python訓練自己的模型

times：2020/3/23 操作系統：win10 環境：python 3.6 因爲我之前把所有內容寫在一篇文章裏非常的亂，所以本文主線是訓練自己的 yolo.h5 去識別圖像中的人，所有小細節的操作，我都在文中添加了鏈接，新

霍格沃茨电气魔法师

2020-06-23 21:16:52

anaconda安裝 pytorch——詳解

事件前言：今天凌晨2點多時清華鏡像源還可以正常使用，但是剛剛我電腦卻使用不了了使用中科大、阿里雲等國內鏡像的時候，一直報錯： Warning: 'https://mirrors.tuna.tsinghua.edu.cn/an

霍格沃茨电气魔法师

2020-06-23 21:16:51

python絕對兼容的庫配置——機器學習

先給大家推薦一個：深度學習環境兼容性配置接下來記錄一下我的 python 庫的版本，以免以後我自己搞錯了… Package Version -----------------

霍格沃茨电气魔法师

2020-06-23 21:16:51

Python 時間相關

總結帖，後續補充加入 … 獲取當天的最大最小時間

2020-06-21 20:16:45

關於 python 的繁簡體轉換

原文： https://www.jianshu.com/p/64fecfad1157 # 安裝 # pip install opencc-python-reimplemented # t2s - 繁體轉簡體（Traditiona

2020-06-21 20:16:35

Anaconda常用庫的安裝命令

1.數據增強 conda install -c conda-forge imgaug conda install albumentations -c albumentations

2020-06-20 17:29:58

24小時熱門文章

最新文章

最新評論文章