通过Python提取文本中指定开始/结尾中的内容

今天,在爬取数据后,提取时,遇到了无法直接通过标签获取数据。

<ul class="key clearfix">
        <li>开 本:16开</li>
        <li>纸 张:胶版纸</li>
        <li>包 装:平装-胶订</li>
        <li>是否套装:否</li>
        <li>国际标准书号ISBN:9787115422699</li>
</ul>

比如说,我想要提取开本的规格“16开”。

解决方案:
后面,查询资料的时候发现通过正则表达式子,可以锁定提取的前后部分。具体操作如下:

import re

# 要提取的原材料
a = """<ul class="key clearfix">
        <li>开 本:16开</li>
        <li>纸 张:胶版纸</li>
        <li>包 装:平装-胶订</li>
        <li>是否套装:否</li>
        <li>国际标准书号ISBN:9787115422699</li>
    </ul>"""

# 想提取的内容假设为"16开",分析它前为本:,后为</li>;.在正则中表示可代表一切字符,+代表匹配前面字符 >=0 次,即规定前后里面的内容
formats = re.findall(r"本:(.+)</li>", a)
print(formats)  # 输出为['16开']
# 由于输出是数组,所以再次提出
format = formats[0]
print(format)   # 输出为16开
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章