06Python爬蟲---正則表達式05之實戰

原創

2020-06-29 19:44

實例1：匹配.com或.vn後綴的URL網址

import re
string = "<a href='http://www.baidu.com'>百度首頁</a>"
pattern = "[a-zA-Z]+://[^/s]*[.com|.cn]"
result = re.search(pattern, string)
print(result)  # 結果:<_sre.SRE_Match object; span=(9, 29), match='http://www.baidu.com'>

首先觀察：
（1）固定的有://,可以寫出來，
（2）是.com、.cn結尾那麼就寫爲[.com|.cn]
（3）在://和[.com|.cn]中間不能有空格所以寫爲[^/s]*
（4）在://之前必須要有內容，而且至少有一次重複,所以用+而不用*,這些內容可以使任意字符的組合，包括大小寫，所以寫爲[a-zA-Z]+
（5）組合起來的表達式[a-zA-Z]+://[^/s]*[.com|.cn]

實例2：匹配電話號碼

實例目的：將一串字符串裏面出現的電話號碼信息提取出來，過濾掉其他無關信息

import re
string = "021-6728263653682382265236"
pattern = "\d{4}-\d{7}|\d{3}-\d{8}"
result = re.search(pattern, string)
print(result)  # 結果:<_sre.SRE_Match object; span=(0, 12), match='021-67282636'>

電話號碼區位數字有3位，有4位，所以後面的數字爲8位或者7位，中間用-連接。 \d{4}-\d{7}|\d{3}-\d{8}

實例3：匹配電子郵箱地址

import re
string = "<a href='http://www.baidu.com'>百度首頁</a><br><a href='mailto:[email protected]'>電子郵箱</a>"
pattern = "\w+([.+-]\w+)*@\w+([.-]\w+)*\.\w+([.-]\w+)*"
result = re.search(pattern, string)
print(result)  # 結果:<_sre.SRE_Match object; span=(59, 81), match='[email protected]'>

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

06Python爬蟲---正則表達式05之實戰

實例1：匹配.com或.vn後綴的URL網址

實例2：匹配電話號碼

實例目的：將一串字符串裏面出現的電話號碼信息提取出來，過濾掉其他無關信息

實例3：匹配電子郵箱地址

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

06Python爬蟲---正則表達式05之實戰

05Python爬蟲---小結

07Python爬蟲---Cookie實戰

08Python爬蟲---正則和Cookie小結

前端學習OneDay--JS ES6之let和const

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結