通過Python提取文本中指定開始/結尾中的內容

原創

weixin_41098099

2020-04-24 02:05

今天，在爬取數據後，提取時，遇到了無法直接通過標籤獲取數據。

<ul class="key clearfix">
        <li>開 本：16開</li>
        <li>紙 張：膠版紙</li>
        <li>包 裝：平裝-膠訂</li>
        <li>是否套裝：否</li>
        <li>國際標準書號ISBN：9787115422699</li>
</ul>

比如說，我想要提取開本的規格“16開”。

解決方案：
後面，查詢資料的時候發現通過正則表達式子，可以鎖定提取的前後部分。具體操作如下：

import re

# 要提取的原材料
a = """<ul class="key clearfix">
        <li>開 本：16開</li>
        <li>紙 張：膠版紙</li>
        <li>包 裝：平裝-膠訂</li>
        <li>是否套裝：否</li>
        <li>國際標準書號ISBN：9787115422699</li>
    </ul>"""

# 想提取的內容假設爲"16開"，分析它前爲本：，後爲</li>；.在正則中表示可代表一切字符，+代表匹配前面字符 >=0 次，即規定前後裏面的內容
formats = re.findall(r"本：(.+)</li>", a)
print(formats)  # 輸出爲['16開']
# 由於輸出是數組，所以再次提出
format = formats[0]
print(format)   # 輸出爲16開

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

CKS真題 -- 網絡策略NetworkPolicy

任務創建一個名爲 pod-restriction 的 NetworkPolicy 來限制對在 namespace dev-team 中運行的 Pod products-service 的訪問。只允許以下 Pod 連接到 Pod prod

2024-04-29 14:04:25

CKS真題 -- AppArmor應⽤程序⾏爲限制

任務在 cluster 的工作節點上，實施位於 /etc/apparmor.d/nginx_apparmor 的現有 APPArmor配置文件。編輯位於 /home/candidate/KSSH00401/nginx-deploy.ya

2024-04-29 14:04:25

CKS真題 -- Trivy 掃描鏡像安全漏洞

任務使用 Trivy 開源容器掃描器檢測 namespace kamino 中具有嚴重漏洞的鏡像的 Pod。查找具有 High 或 Critical 嚴重性漏洞的鏡像，並刪除使用這些鏡像的 Pod 。注意：Trivy 僅安裝在 c

2024-04-29 14:04:25

CKS真題 -- TLS通信增強

任務通過TLS加強kube-apiserver安全配置，要求 1、kube-apiserver除了VersionTLS13及以上的版本可以使用，其他版本都不允許使用。 2、密碼套件（Cipher suite）爲TLS_AES_128_GC

2024-04-29 14:04:25

CKS真題 -- Dockerfile檢測

任務分析和編輯給定的Dockerfile /cks/docker/Dockerfile（基於ubuntu:16.04 鏡像），並修復在文件中擁有的突出的安全/最佳實踐問題的兩個指令。分析和編輯給定的清單文件 /cks/docker/d

2024-04-29 14:04:25

CKS真題 -- Container安全上下文

任務按照如下要求修改sec-ns命名空間裏的Deployment secdep 1、用ID爲30000的用戶啓動容器（設置用戶1D爲：30000） 2、不允許進程獲得超出其父進程的特權（禁止allowPrivilegeEscalation

2024-04-29 14:04:25

CKS真題 -- 啓用API server認證

任務重新配置 cluster 的Kubernetes APl 服務器，以確保只允許經過身份驗證和授權的 REST 請求。使用授權模式 Node,RBAC 和准入控制器NodeRestriction。刪除用戶 system:anonym

2024-04-29 14:04:25

CKS真題 -- Sysdig & Falco

任務使用運行時檢測工具來檢測 Pod tomcat123 單個容器中頻發生成和執行的異常進程。有兩種工具可供使用： sysdig falco 注：這些工具只預裝在 cluster 的工作節點node02，不在 master 節點。

2024-04-29 14:04:25

CKS真題 -- 無狀態和不可變應用

任務檢查在namespace development中運行的pod，並刪除任何非無狀態和非不可變的pod 名詞解釋：無狀態應用：指應用本身不依賴於持久化的狀態數據，沒有存儲掛載，更強調每個請求的獨立性。不可變應用：一旦程序部署完成，其

2024-04-29 14:04:25

CKS真題 -- ImagePolicyWebhook容器鏡像掃描

任務注意：你必須在 cluster 的 master節點上完成整個考題，所有服務和文件都已被準備好並放置在該節點上。給定一個目錄 /etc/kubernetes/epconfig中不完整的配置以及具有 HTTPS 端點 https://

2024-04-29 14:04:25

JavaScript: FullScreen

<!doctype html> <html> <head> <meta charset="utf-8"> <meta name="viewport" content="width=device-width, initial-scal

®Geovin Du Dream Park™

2024-04-29 14:00:44

es6語法同時解構&重命名&賦初值的方法

剛發現es6支持這樣寫： const { unitLineChart: list1 = [], unitTpo: list2 = [] } = await AjaxAPI(params.name) 以上

2024-04-29 13:59:44

網絡安全學習啓航

“沒有網絡安全，就沒有國家安全” 國家有人民子弟兵，在國家需要之時，國家和人民受到威脅之時，可以挺身而出，是我們可感知的世界的存在。而網絡安全講的是信息層面的安全，是隱藏在我們日常生活背後的安全。學好網絡安全不但是一個人自身技能的提升

2024-04-29 13:59:34

Got a packet bigger than 'max_allowed_packet' bytes"

原因：這個錯誤表示MySQL服務器配置中的max_allowed_packet參數的設置值小於了客戶端嘗試發送的數據包大小。數據包太大，超出了服務器允許的最大限制，因此連接被中斷。解決方法：在my.cnf中增加： [mysqld

2024-04-29 13:58:34

ffmpeg 百度雲盤

鏈接：https://pan.baidu.com/s/1PumPY7-M-oxEMf5EDAqNbw?pwd=0gw5 提取碼：0gw5 AudioSegment.from_mp3方法錯誤提示：系統找不到指定的文件。把下面3個文件拷

2024-04-29 13:58:34

24小時熱門文章

最新文章

最新評論文章