正則表達式--部分整合

 通配符

正則表達式可以匹配多於一個的字符串,可以使用一些特殊字符創建這類模式。比如點號(.)可以匹配任何字符。在我們用window 搜索時用問號(?)匹配任意一位字符,作用是一樣的。那麼這類符號就叫通配符。

 

 對特殊字符進行轉義

通過上面的方法,假如我們要匹配“python.org”,直接用用‘python.org’可以麼?這麼做可以,但這樣也會匹配“pythonzorg”,這可不是所期望的結果。

我們需要對它進行轉義,可以在它前面加上雙斜線。因此,本例中可以使用“python\\.org”,這樣就只會匹配“python.org”了。

 

字符集

我們可以使用中括號([ ])括住字符串來創建字符集。可以使用範圍,比如‘[a-z]’能夠匹配az的任意一個字符,還可以通過一個接一個的方式將範圍聯合起來使用,比如‘[a-zA-Z0-9]’能夠匹配任意大小寫字母和數字。

反轉字符集,可以在開頭使用^字符,比如‘[^abc]’可以匹配任何除了abc之外的字符。

 

選擇符

有時候只想匹配字符串python 和 perl  ,可以使用選擇項的特殊字符:管道符號(|) 。因此, 所需模式可以寫成python|perl 。

 

 子模式

但是,有些時候不需要對整個模式使用選擇符---只是模式的一部分。這時可以使用圓括號起需要的部分,或稱子模式。 前例可以寫成 p(ython | erl)

 

可選項

在子模式後面加上問號,它就變成了可選項。它可能出現在匹配字符串,但並非必須的。

r(http://)?(www\.)?python\.org

只能匹配下列字符:

http://www.python.org

http://python.org

www.python.org

python.org

 

重複子模式

(pattern)* : 允許模式重複0次或多次

(pattern)+ : 允許模式重複1次或多次

(pattern){m,n} : 允許模式重複m~ n 

例如:

rw * \.python\.org  匹配 www.python.org 、.python.org 、wwwwwww.python.org

rw + \.python\.org  匹配 w.python.org ;但不能匹配 .python.org 

rw {3,4}\.python\.org  只能匹配www.python.org 和wwww.python.org 

 

re模塊的內容

 

re模塊中一些重要的函數:

  re.compile 將正則表達式轉換爲模式對象,可以實現更有效率的匹配。

  re.search 會在給定字符串中尋找第一個匹配給正則表式的子字符串。找到函數返回MatchObject(值爲True),否則返回None(值爲False) 。因爲返回值的性質,所以該函數可以用在條件語句中:

if re.serch(pat, string):

print ‘found it !’

 

  re.math 會在給定字符串的開頭匹配正則表達式。因此,re.math(p , python)返回真,re.math(p , www.python則返回假。

  re.split 會根據模式的匹配項來分割字符串。

>>> import re
>>> some_text = 'alpha , beta ,,,gamma delta '
>>> re.split('[,]+',some_text)
['alpha ', ' beta ', 'gamma delta ']

 

  re. findall以列表形式返回給定模式的所有匹配項。比如,要在字符串中查找所有單詞,可以像下面這麼做:

>>> import re
>>> pat = '[a-zA-Z]+'
>>> text = '"Hm...err -- are you sure?" he said, sounding insecure.'
>>> re.findall(pat,text)
['Hm', 'err', 'are', 'you', 'sure', 'he', 'said', 'sounding', 'insecure']

 

  re.sub的作用在於:使用給定的替換內容將匹配模式的子符串(最左端並且重疊子字符串)替換掉。

>>> import re
>>> pat = '{name}'
>>> text = 'Dear {name}...'
>>> re.sub(pat, 'Mr. Gumby',text)
'Dear Mr. Gumby...'

 

  re.escape 函數,可以對字符串中所有可能被解釋爲正則運算符的字符進行轉義的應用函數。

如果字符串很長且包含很多特殊字符,而你又不想輸入一大堆反斜線,可以使用這個函數:

>>> re.escape('www.python.org')
'www\\.python\\.org'
>>> re.escape('but where is the ambiguity?')
'but\\ where\\ is\\ the\\ ambiguity\\?'

 

 

 

匹配對象和組

 

簡單來說,組就是放置在圓括號裏內的子模塊,組的序號取決於它左側的括號數。組0就是整個模塊,所以在下面的模式中:

‘There  (was a (wee) (cooper)) who (lived in Fyfe)’

包含組有:

0  There  was a  wee cooper  who  lived in Fyfe

1  was a  wee  cooper

2  wee

3  cooper

4  lived in Fyfe

 

re 匹配對象的重要方法

下面看實例:


>>> import re
>>> m = re.match(r'www\.(.*)\..{3}','www.python.org')
>>> m.group()
'www.python.org'
>>> m.group(0)
'www.python.org'
>>> m.group(1)
'python'
>>> m.start(1)
4
>>> m.end(1)
10
>>> m.span(1)
(4, 10)


  group方法返回模式中與給定組匹配的字符串,如果沒有組號,默認爲;如上面:m.group()==m.group(0) ;如果給定一個組號,會返回單個字符串。

  start 方法返回給定組匹配項的開始索引,

  end方法返回給定組匹配項的結束索引加1

  span以元組(startend)的形式返回給組的開始和結束位置的索引。


元字符的列表:

^ $ * + ? { [ ] \ | ( )

我們首先考察的元字符是"[" 和 "]"。它們常用來指定一個字符類別,所謂字符類別就是你想匹配的一個字符集。字符可以單個列出,也可以用“-”號分隔的兩個給定字符來表示一個字符區間。例如,[abc] 將匹配"a", "b", 或 "c"中的任意一個字符;也可以用區間[a-c]來表示同一字符集,和前者效果一致。如果你只想匹配小寫字母,那幺 RE 應寫成 [a-z].

元字符在類別裏並不起作用。例如,[akm$]將匹配字符"a", "k", "m", 或 "$" 中的任意一個;"$"通常用作元字符,但在字符類別裏,其特性被除去,恢復成普通字符。

你可以用補集來匹配不在區間範圍內的字符。其做法是把"^"作爲類別的首個字符;其它地方的"^"只會簡單匹配 "^"字符本身。例如,[^5] 將匹配除 "5" 之外的任意字符。


一些用 """ 開始的特殊字符所表示的預定義字符集通常是很有用的,象數字集,字母集,或其它非空字符集。下列是可用的預設特殊字符:

\d  匹配任何十進制數;它相當於類 [0-9]。

\D  匹配任何非數字字符;它相當於類 [^0-9]。

\s  匹配任何空白字符;它相當於類  [ "t"n"r"f"v]。???

\S  匹配任何非空白字符;它相當於類 [^ "t"n"r"f"v]。?

\w  匹配任何字母數字字符;它相當於類 [a-zA-Z0-9_]。

\W  匹配任何非字母數字字符;它相當於類 [^a-zA-Z0-9_]。

這樣特殊字符都可以包含在一個字符類中。如,["s,.]字符類將匹配任何空白字符或","或"."。

本節最後一個元字符是 . 。它匹配除了換行字符外的任何字符,在 alternate 模式(re.DOTALL)下它甚至可以匹配換行。"." 通常被用於你想匹配“任何字符”的地方。

重複

基本符號說明:

*                                0次、1次或多次匹配其前的原子
+                                1次或多次匹配其前的原子
?                                0次或1次匹配其前的原子
.                                匹配除換行之外的任何一個字符


正則表達式第一件能做的事是能夠匹配不定長的字符集,而這是其它能作用在字符串上的方法所不能做到的。 不過,如果那是正則表達式唯一的附加功能的話,那麼它們也就不那麼優秀了。它們的另一個功能就是你可以指定正則表達式的一部分的重複次數。

我們討論的第一個重複功能的元字符是 *。* 並不匹配字母字符 "*";相反,它指定前一個字符可以被匹配零次或更多次,而不是隻有一次。

舉個例子,ca*t 將匹配 "ct" (0 個 "a" 字符), "cat" (1 個 "a"), "caaat" (3 個 "a" 字符)等等。RE 引擎有各種來自 C 的整數類型大小的內部限制,以防止它匹配超過2億個 "a" 字符;你也許沒有足夠的內存去建造那麼大的字符串,所以將不會累計到那個限制。

象 * 這樣地重複是“貪婪的”;當重複一個 RE 時,匹配引擎會試着重複儘可能多的次數。如果模式的後面部分沒有被匹配,匹配引擎將退回並再次嘗試更小的重複。


RE 的結尾部分現在可以到達了,它匹配 "abcb"。這證明了匹配引擎一開始會盡其所能進行匹配,如果沒有匹配然後就逐步退回並反覆嘗試 RE 剩下來的部分。直到它退回嘗試匹配 [bcd] 到零次爲止,如果隨後還是失敗,那麼引擎就會認爲該字符串根本無法匹配 RE 。


另一個重複元字符是 +,表示匹配一或更多次。請注意 * 和 + 之間的不同;*匹配零或更多次,所以根本就可以不出現,而 + 則要求至少出現一次。用同一個例子,ca+t 就可以匹配 "cat" (1 個 "a"), "caaat" (3 個 "a"), 但不能匹配 "ct"。


還有更多的限定符。問號 ? 匹配一次或零次;你可以認爲它用於標識某事物是可選的。例如:home-?brew 匹配 "homebrew" 或 "home-brew"。


最複雜的重複限定符是 {m,n},其中 m 和 n 是十進制整數。該限定符的意思是至少有 m 個重複,至多到 n 個重複。舉個例子,a/{1,3}b 將匹配 "a/b","a//b" 和 "a///b"。它不能匹配 "ab" 因爲沒有斜槓,也不能匹配 "a////b" ,因爲有四個。




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章