【Python】【整理】廖雪峯Python教程代碼整理—— 12、正則表達式

原創

2020-06-16 14:40

12 正則表達式

文章目錄

12 正則表達式

符號	對象
\d	數字
\w	字母或數字
\s	空格空白符
.	任意字符
*	任意個字符
+	至少一個字符
？	0或1個字符
{n}	n個字符
{n, m}	n~m個字符

12.1 進階

[] 表示範圍：
[0-9a-zA-Z\_]：一個數字、字母或者下劃線；

[0-9a-zA-Z\_]+：至少由一個數字、字母或者下劃線組成的字符串，比如’a100’，‘0_Z’，'Py3000’等等；

[a-zA-Z\_][0-9a-zA-Z\_]*：可以匹配由字母或下劃線開頭，後接任意個由一個數字、字母或者下劃線組成的字符串，也就是Python合法的變量；

[a-zA-Z\_][0-9a-zA-Z\_]{0, 19}：更精確地限制了變量的長度是1-20個字符（前面1個字符+後面最多19個字符）。

A|B可以匹配A或B，所以(P|p)ython可以匹配’Python’或者’python’。

^表示行的開頭，^\d表示必須以數字開頭。

$表示行的結束，\d$表示必須以數字結束。

你可能注意到了，py也可以匹配’python’，但是加上^py$就變成了整行匹配，就只能匹配’py’了。

12.2 re模塊

Python的字符串本身也用\轉義：

s = 'ABC\\-001' # Python的字符串
# 對應的正則表達式字符串變成：
# 'ABC\-001'

r前綴，就不用考慮轉義：

s = r'ABC\-001' # Python的字符串
# 對應的正則表達式字符串不變：
# 'ABC\-001'

判斷正則表達式是否匹配：

>>> import re
>>> re.match(r'^\d{3}\-\d{3,8}$', '010-12345')
<_sre.SRE_Match object; span=(0, 9), match='010-12345'>
>>> re.match(r'^\d{3}\-\d{3,8}$', '010 12345')
>>>

常見的判斷方法：

test = '用戶輸入的字符串'
if re.match(r'正則表達式', test):
    print('ok')
else:
    print('failed')

12.3 切分字符串

正常的切分代碼：

>>> 'a b   c'.split(' ')
['a', 'b', '', '', 'c']

連續空格只能識別一個：

>>> re.split(r'\s+', 'a b   c')
['a', 'b', 'c']

正則靈活切分：

>>> 'a b   c'.split(' ')
['a', 'b', '', '', 'c']

>>> re.split(r'\s+', 'a b   c')
['a', 'b', 'c']

12.4 分組

從匹配的字符串中提取出區號和本地號碼：

>>> m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345')
>>> m
<_sre.SRE_Match object; span=(0, 9), match='010-12345'>
>>> m.group(0)
'010-12345'
>>> m.group(1)
'010'
>>> m.group(2)
'12345'

提取子串，直接識別合法的時間：

>>> t = '19:05:30'
>>> m = re.match(r'^(0[0-9]|1[0-9]|2[0-3]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$', t)
>>> m.groups()
('19', '05', '30')

12.5 貪婪匹配

匹配出數字後面的0：

>>> re.match(r'^(\d+)(0*)$', '102300').groups()
('102300', '')

非貪婪匹配：

>>> re.match(r'^(\d+?)(0*)$', '102300').groups()
('1023', '00')

12.6 編譯

預編譯正則表達式，重複使用：

>>> import re
# 編譯:
>>> re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')
# 使用：
>>> re_telephone.match('010-12345').groups()
('010', '12345')
>>> re_telephone.match('010-8086').groups()
('010', '8086')

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【Python】【整理】廖雪峯Python教程代碼整理—— 12、正則表達式

12 正則表達式

文章目錄

12.1 進階

12.2 re模塊

12.3 切分字符串

12.4 分組

12.5 貪婪匹配

12.6 編譯

【運維】Linux安裝GeoIP，報錯Transaction check error、各種問題解決

網站合同操作流程

【VMware】【解決】vmnet0不見、無法安裝服務“VMware Authorization Service” 請確保你有足夠的權限安裝系統服務、虛擬機ping不通主機

【Linux】系統重置密碼

【Python】【整理】廖雪峯Python教程代碼整理——7、面向對象編程

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結