06Python爬虫---正则表达式05之实战

原創

2020-06-29 19:44

实例1：匹配.com或.vn后缀的URL网址

import re
string = "<a href='http://www.baidu.com'>百度首页</a>"
pattern = "[a-zA-Z]+://[^/s]*[.com|.cn]"
result = re.search(pattern, string)
print(result)  # 结果:<_sre.SRE_Match object; span=(9, 29), match='http://www.baidu.com'>

首先观察：
（1）固定的有://,可以写出来，
（2）是.com、.cn结尾那么就写为[.com|.cn]
（3）在://和[.com|.cn]中间不能有空格所以写为[^/s]*
（4）在://之前必须要有内容，而且至少有一次重复,所以用+而不用*,这些内容可以使任意字符的组合，包括大小写，所以写为[a-zA-Z]+
（5）组合起来的表达式[a-zA-Z]+://[^/s]*[.com|.cn]

实例2：匹配电话号码

实例目的：将一串字符串里面出现的电话号码信息提取出来，过滤掉其他无关信息

import re
string = "021-6728263653682382265236"
pattern = "\d{4}-\d{7}|\d{3}-\d{8}"
result = re.search(pattern, string)
print(result)  # 结果:<_sre.SRE_Match object; span=(0, 12), match='021-67282636'>

电话号码区位数字有3位，有4位，所以后面的数字为8位或者7位，中间用-连接。 \d{4}-\d{7}|\d{3}-\d{8}

实例3：匹配电子邮箱地址

import re
string = "<a href='http://www.baidu.com'>百度首页</a><br><a href='mailto:[email protected]'>电子邮箱</a>"
pattern = "\w+([.+-]\w+)*@\w+([.-]\w+)*\.\w+([.-]\w+)*"
result = re.search(pattern, string)
print(result)  # 结果:<_sre.SRE_Match object; span=(59, 81), match='[email protected]'>

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python的while循环

1.while循環的格式 while 條件: 條件滿足時，做的事情1 條件滿足時，做的事情2 條件滿足時，做的事情3 ...(省略)... demo

2023-10-10 11:37:31

python初识第二天

認識現實世界與虛擬世界的橋樑感受python帶來的魔力數據類型 Python裏，最常用的數據類型有三種——字符串(str)、整數(int)和浮點數(float) 字符串，字符串英文string，簡寫str 字符串的識別方式非常簡單—

2023-02-01 22:01:30

Python 的十大特性

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Rupam Choudhary

2021-12-16 16:04:03

Python开发工程师[金融方向] Remote/Singapore (20k - 45k)

簡單介紹：要做的事：同交易員一起開發交易相關係統；能力要求：能獨立解決問題，完成項目開發，有較強的學習能力（技術和業務）品格正直，較強的心裏承壓能力；職業前景：能提供給你完全不同於互聯網公司的報酬上限，職業途徑；與一流交易員溝通機會，瞭解他

2021-12-09 17:53:05

JavaScript 浏览器统治地位不保？Python 有望取代

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-02 17:58:57

懒人畅听网，有声小说类目数据采集，多线程速采案例，Python爬虫120例之23例

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

梦想橡皮擦

2021-11-23 11:18:54

令人不悦的–requests.exceptions.ProxyError

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-19 18:03:59

谁有粉？就爬谁！他粉多，就爬他！Python 多线程采集 260000+ 粉丝数据

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

梦想橡皮擦

2021-11-19 11:53:49

PHP正在“杀死”Python

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-11 15:58:55

2021年Python的好与坏

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"摘要"}]},{"t

2021-11-11 10:53:54

如何使用Python进行超参调参和调优

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Nikola M. Zivkovic

2021-10-29 10:13:57

许式伟：Go+ Together丨Go+ 1.0 发布会干货分享

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-10-19 18:18:55

这篇 python 文章，是过去你错过的 python 细节知识点，滚雪球第4季第15篇

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

梦想橡皮擦

2021-10-15 16:03:54

1. 滚雪球学Python第四季开启，一需三吃，Python 函数式编程初识，面向过程，面向对象，函数式

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

梦想橡皮擦

2021-10-14 10:33:53

微信回应用户相册问题；IBM 强制员工打疫苗；Win 11、Android 12正式发布；Facebook 宕机 6 小时；乔布斯去世十周年；微软开放第三方商店入驻

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-10-11 09:03:55

24小時熱門文章

Spring Cloud 部署时如何使用 Kubernetes 作为注册中心和配置中心

最新文章

最新評論文章