Python正則表達式指南上半部

原創

风雨萧条

2020-07-03 06:37

本文介紹了Python對於正則表達式的支持，包括正則表達式基礎以及Python正則表達式標準庫的完整介紹及使用示例。本文的內容不包括如何編寫高效的正則表達式、如何優化正則表達式，這些主題請查看其他教程。

　　注意：本文基於Python2.4完成；如果看到不明白的詞彙請記得百度谷歌或維基，whatever。

　1. 正則表達式基礎

　　1.1. 簡單介紹

　　正則表達式並不是Python的一部分。正則表達式是用於處理字符串的強大工具，擁有自己獨特的語法以及一個獨立的處理引擎，效率上可能不如str自帶的方法，但功能十分強大。得益於這一點，在提供了正則表達式的語言裏，正則表達式的語法都是一樣的，區別只在於不同的編程語言實現支持的語法數量不同；但不用擔心，不被支持的語法通常是不常用的部分。如果已經在其他語言裏使用過正則表達式，只需要簡單看一看就可以上手了。

下圖展示了使用正則表達式進行匹配的流程：

650) this.width=650;" src="http://www.admin10000.com/UploadFiles/Document/201408/13/20140813230418821082.JPG" alt="" style="margin:0px;padding:0px;border:0px;" />

　　正則表達式的大致匹配過程是：依次拿出表達式和文本中的字符比較，如果每一個字符都能匹配，則匹配成功；一旦有匹配不成功的字符則匹配失敗。如果表達式中有量詞或邊界，這個過程會稍微有一些不同，但也是很好理解的，看下圖中的示例以及自己多使用幾次就能明白。

下圖列出了Python支持的正則表達式元字符和語法：

650) this.width=650;" src="http://www.admin10000.com/UploadFiles/Document/201408/13/20140813230418133483.JPG" alt="" style="margin:0px;padding:0px;border:0px;" />

　　1.2. 數量詞的貪婪模式與非貪婪模式

　　正則表達式通常用於在文本中查找匹配的字符串。Python裏數量詞默認是貪婪的（在少數語言裏也可能是默認非貪婪），總是嘗試匹配儘可能多的字符；非貪婪的則相反，總是嘗試匹配儘可能少的字符。例如：正則表達式”ab*”如果用於查找”abbbc”，將找到”abbb”。而如果使用非貪婪的數量詞”ab*?”，將找到”a”。

　　1.3. 反斜槓的困擾

　　與大多數編程語言相同，正則表達式裏使用”\”作爲轉義字符，這就可能造成反斜槓困擾。假如你需要匹配文本中的字符”\”，那麼使用編程語言表示的正則表達式裏將需要4個反斜槓”\\\\”：前兩個和後兩個分別用於在編程語言裏轉義成反斜槓，轉換成兩個反斜槓後再在正則表達式裏轉義成一個反斜槓。Python裏的原生字符串很好地解決了這個問題，這個例子中的正則表達式可以使用r”\\”表示。同樣，匹配一個數字的”\\d”可以寫成r”\d”。有了原生字符串，你再也不用擔心是不是漏寫了反斜槓，寫出來的表達式也更直觀。

　　1.4. 匹配模式

　　正則表達式提供了一些可用的匹配模式，比如忽略大小寫、多行匹配等，這部分內容將在Pattern類的工廠方法re.compile(pattern[, flags])中一起介紹。

　2. re模塊

　　2.1. 開始使用re

　　Python通過re模塊提供對正則表達式的支持。使用re的一般步驟是先將正則表達式的字符串形式編譯爲Pattern實例，然後使用Pattern實例處理文本並獲得匹配結果（一個Match實例），最後使用Match實例獲得信息，進行其他的操作。

# encoding: UTF-8

import re

# 將正則表達式編譯成Pattern對象

pattern = re.compile(r'hello')

# 使用Pattern匹配文本，獲得匹配結果，無法匹配時將返回None

match = pattern.match('hello world!')

if match:

# 使用Match獲得分組信息

print match.group()

### 輸出 ###

# hello

　　re.compile(strPattern[, flag]):

　　這個方法是Pattern類的工廠方法，用於將字符串形式的正則表達式編譯爲Pattern對象。第二個參數flag是匹配模式，取值可以使用按位或運算符’|'表示同時生效，比如re.I | re.M。另外，你也可以在regex字符串中指定模式，比如re.compile(‘pattern’, re.I | re.M)與re.compile(‘(?im)pattern’)是等價的。

　　可選值有：

re.I(re.IGNORECASE): 忽略大小寫（括號內是完整寫法，下同）
M(MULTILINE): 多行模式，改變’^'和’$'的行爲（參見上圖）
S(DOTALL): 點任意匹配模式，改變’.'的行爲
L(LOCALE): 使預定字符類 \w \W \b \B \s \S 取決於當前區域設定
U(UNICODE): 使預定字符類 \w \W \b \B \s \S \d \D 取決於unicode定義的字符屬性
X(VERBOSE): 詳細模式。這個模式下正則表達式可以是多行，忽略空白字符，並可以加入註釋。以下兩個正則表達式是等價的：

a = re.compile(r"""\d + # the integral part

\. # the decimal point

\d * # some fractional digits""", re.X)

b = re.compile(r"\d+\.\d*")

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python正則表達式指南上半部

1. 正則表達式基礎

1.1. 簡單介紹

1.2. 數量詞的貪婪模式與非貪婪模式

1.3. 反斜槓的困擾

1.4. 匹配模式

2. re模塊

2.1. 開始使用re

如何使用 JS 判斷用戶是否處於活躍狀態

Mono 支持LoongArch架構

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

網絡爬蟲的祕密：如何高效地抓取JD.com視頻鏈接

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

Python正則表達式指南下半部

float詳解（2）

Python正則表達式指南上半部

電腦端一些快捷開源創建平臺

CSS浮動詳解（1）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結