今天,在爬取数据后,提取时,遇到了无法直接通过标签获取数据。
<ul class="key clearfix">
<li>开 本:16开</li>
<li>纸 张:胶版纸</li>
<li>包 装:平装-胶订</li>
<li>是否套装:否</li>
<li>国际标准书号ISBN:9787115422699</li>
</ul>
比如说,我想要提取开本的规格“16开”。
解决方案:
后面,查询资料的时候发现通过正则表达式子,可以锁定提取的前后部分。具体操作如下:
import re
# 要提取的原材料
a = """<ul class="key clearfix">
<li>开 本:16开</li>
<li>纸 张:胶版纸</li>
<li>包 装:平装-胶订</li>
<li>是否套装:否</li>
<li>国际标准书号ISBN:9787115422699</li>
</ul>"""
# 想提取的内容假设为"16开",分析它前为本:,后为</li>;.在正则中表示可代表一切字符,+代表匹配前面字符 >=0 次,即规定前后里面的内容
formats = re.findall(r"本:(.+)</li>", a)
print(formats) # 输出为['16开']
# 由于输出是数组,所以再次提出
format = formats[0]
print(format) # 输出为16开