自己常用的Python正則表達式

原創

2020-06-09 02:19

修飾符

正則表達式可以包含一些可選標誌修飾符來控制匹配的模式。修飾符被指定爲一個可選的標誌。多個標誌可以通過按位 OR(|) 它們來指定。

import re
str = 'xH\nhow are you'
y0 = re.search(r'xh.*', str)              # 匹配不到任何字符串
y1 = re.search(r'xh.*', str, re.I)        # 匹配到 'xH'
y2 = re.search(r'xh.*', str, re.I|re.S)   # 匹配到整個 str

貪婪匹配與非貪婪匹配

正則表達式默認匹配所有可能中最長的那一個，即所謂的貪婪匹配，非貪婪匹配則是匹配最短的那一個。
在表匹配次數的模式後面加一個’?’，就變成非貪婪匹配。

import re
str = 'xyz'
y0 = re.search(r'\w+', str)			# +代表匹配一個或多個，這裏str長3，匹配到最長的字符串 'xyz'
y1 = re.search(r'\w+?', str)		# 非貪婪模式，匹配到符合要求的最短的字符串 'x'

re.search及分組匹配

匹配對象方法描述

group(num=0) 匹配的整個表達式的字符串，group() 可以一次輸入多個組號，在這種情況下它將返回一個包含那些組所對應值的元組。

groups() 返回一個包含所有小組字符串的元組，從 1 到所含的小組號。

匹配對象方法	描述
group(num=0)	匹配的整個表達式的字符串，group() 可以一次輸入多個組號，在這種情況下它將返回一個包含那些組所對應值的元組。
groups()	返回一個包含所有小組字符串的元組，從 1 到所含的小組號。

import re
str = 'xyz'
y0 = re.search(r'\w+', str).group()		# y0 = 'xyz'
y1 = re.search(r'(\w)(\w)(\w)', str)	# 加上特殊字符---括號：分組匹配
# y1.group() = y1.group(0) = 'xyz'
# y1.group(1) = 'x'
# y1.group(2) = 'y'
# y1.group(3) = 'z'
# y1.span() = (0, 3)
# y1.span(1) = (0, 1)
# y1.span(2) = (1, 2)
# y1.span(3) = (2, 3)

re.sub替換

re.sub允許使用函數對匹配項的替換進行復雜的處理。

import re
str = 'x1234z'		# 要替換 str 中前後的字母爲 a 和 b ，但保留中間的數字
y = re.sub(r'(\w)(\d+)(\w)', lambda m: 'a' + m.group(2) + 'b', str)
print(y)			# 'a1234b'

鏈接

1. Python re模塊
 2. 菜鳥教程正則表達式
 3. 博客Python re模塊
 4. 網易雲課堂：看文檔學爬蟲——Python正則表達式
.
.
.
.
.
.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

自己常用的Python正則表達式

修飾符

貪婪匹配與非貪婪匹配

re.search及分組匹配

re.sub替換

鏈接

7---LeetCode【tag: Array】【Stock I】|C語言|總結

9---LeetCode【Maximum Subarray】|C語言|

8---LeetCode【Jump Game】|C語言|

記一次FPGA工程艱難的debug經歷（模塊一定要寄存器輸出）

自己常用的Python正則表達式

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結