Python正則表達式指南上半部

本文介紹了Python對於正則表達式的支持,包括正則表達式基礎以及Python正則表達式標準庫的完整介紹及使用示例。本文的內容不包括如何編寫高效的正則表達式、如何優化正則表達式,這些主題請查看其他教程。

  注意:本文基於Python2.4完成;如果看到不明白的詞彙請記得百度谷歌或維基,whatever。

 1. 正則表達式基礎

  1.1. 簡單介紹

  正則表達式並不是Python的一部分。正則表達式是用於處理字符串的強大工具,擁有自己獨特的語法以及一個獨立的處理引擎,效率上可能不如str自帶的方法,但功能十分強大。得益於這一點,在提供了正則表達式的語言裏,正則表達式的語法都是一樣的,區別只在於不同的編程語言實現支持的語法數量不同;但不用擔心,不被支持的語法通常是不常用的部分。如果已經在其他語言裏使用過正則表達式,只需要簡單看一看就可以上手了。

下圖展示了使用正則表達式進行匹配的流程:

650) this.width=650;" src="http://www.admin10000.com/UploadFiles/Document/201408/13/20140813230418821082.JPG" alt="" style="margin:0px;padding:0px;border:0px;" />

  正則表達式的大致匹配過程是:依次拿出表達式和文本中的字符比較,如果每一個字符都能匹配,則匹配成功;一旦有匹配不成功的字符則匹配失敗。如果表達式中有量詞或邊界,這個過程會稍微有一些不同,但也是很好理解的,看下圖中的示例以及自己多使用幾次就能明白。

下圖列出了Python支持的正則表達式元字符和語法:

650) this.width=650;" src="http://www.admin10000.com/UploadFiles/Document/201408/13/20140813230418133483.JPG" alt="" style="margin:0px;padding:0px;border:0px;" />

  1.2. 數量詞的貪婪模式與非貪婪模式

  正則表達式通常用於在文本中查找匹配的字符串。Python裏數量詞默認是貪婪的(在少數語言裏也可能是默認非貪婪),總是嘗試匹配儘可能多的字符;非貪婪的則相反,總是嘗試匹配儘可能少的字符。例如:正則表達式”ab*”如果用於查找”abbbc”,將找到”abbb”。而如果使用非貪婪的數量詞”ab*?”,將找到”a”。

  1.3. 反斜槓的困擾

  與大多數編程語言相同,正則表達式裏使用”\”作爲轉義字符,這就可能造成反斜槓困擾。假如你需要匹配文本中的字符”\”,那麼使用編程語言表示的正則表達式裏將需要4個反斜槓”\\\\”:前兩個和後兩個分別用於在編程語言裏轉義成反斜槓,轉換成兩個反斜槓後再在正則表達式裏轉義成一個反斜槓。Python裏的原生字符串很好地解決了這個問題,這個例子中的正則表達式可以使用r”\\”表示。同樣,匹配一個數字的”\\d”可以寫成r”\d”。有了原生字符串,你再也不用擔心是不是漏寫了反斜槓,寫出來的表達式也更直觀。

  1.4. 匹配模式

  正則表達式提供了一些可用的匹配模式,比如忽略大小寫、多行匹配等,這部分內容將在Pattern類的工廠方法re.compile(pattern[, flags])中一起介紹。

 2. re模塊

  2.1. 開始使用re

  Python通過re模塊提供對正則表達式的支持。使用re的一般步驟是先將正則表達式的字符串形式編譯爲Pattern實例,然後使用Pattern實例處理文本並獲得匹配結果(一個Match實例),最後使用Match實例獲得信息,進行其他的操作。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
# encoding: UTF-8
import re
 
# 將正則表達式編譯成Pattern對象
pattern = re.compile(r'hello')
 
# 使用Pattern匹配文本,獲得匹配結果,無法匹配時將返回None
match = pattern.match('hello world!')
 
if match:
    # 使用Match獲得分組信息
    print match.group()
 
### 輸出 ###
# hello

  re.compile(strPattern[, flag]):

  這個方法是Pattern類的工廠方法,用於將字符串形式的正則表達式編譯爲Pattern對象。 第二個參數flag是匹配模式,取值可以使用按位或運算符’|'表示同時生效,比如re.I | re.M。另外,你也可以在regex字符串中指定模式,比如re.compile(‘pattern’, re.I | re.M)與re.compile(‘(?im)pattern’)是等價的。

  可選值有:

  • re.I(re.IGNORECASE): 忽略大小寫(括號內是完整寫法,下同)

  • M(MULTILINE): 多行模式,改變’^'和’$'的行爲(參見上圖)

  • S(DOTALL): 點任意匹配模式,改變’.'的行爲

  • L(LOCALE): 使預定字符類 \w \W \b \B \s \S 取決於當前區域設定

  • U(UNICODE): 使預定字符類 \w \W \b \B \s \S \d \D 取決於unicode定義的字符屬性

  • X(VERBOSE): 詳細模式。這個模式下正則表達式可以是多行,忽略空白字符,並可以加入註釋。以下兩個正則表達式是等價的:

1
2
3
4
a = re.compile(r"""\d +  # the integral part
                   \.    # the decimal point
                   \d *  # some fractional digits""", re.X)
b = re.compile(r"\d+\.\d*")


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章