正則表達式分組捕獲說明

分組語法 捕獲

(exp) 匹配exp,並捕獲文本到自動命名的組裏
(?<name>exp) 匹配exp,並捕獲文本到名稱爲name的組裏,也可以寫成(?'name'exp)
(?:exp) 匹配exp,不捕獲匹配的文本
位置指定
(?=exp) 匹配exp前面的位置
(?<=exp) 匹配exp後面的位置
(?!exp) 匹配後面跟的不是exp的位置
(?<!exp) 匹配前面不是exp的位置
註釋
(?#comment) 這種類型的組不對正則表達式的處理產生任何影響,只是爲了提供讓人閱讀註釋

我們已經討論了前兩種語法。第三個(?:exp)不會改變正則表達式的處理方式,只是這樣的組匹配的內容不會像前兩種那樣被捕獲到某個組裏面。

位置指定
接下來的四個用於查找在某些內容(但並不包括這些內容)之前或之後的東西,也就是說它們用於指定一個位置,就像\b,^,$那樣,因此它們也被稱爲零寬斷言。最好還是拿例子來說明吧:

(?=exp)也叫零寬先行斷言,它匹配文本中的某些位置,這些位置的後面能匹配給定的後綴exp。比如\b\w+(?=ing\b),匹配以ing結尾的單詞的前面部分(除了ing以外的部分),如果在查找I'm singing while you're dancing.時,它會匹配sing和danc。

(?<=exp)也叫零寬後行斷言,它匹配文本中的某些位置,這些位置的前面能給定的前綴匹配exp。比如(?<=\bre)\w+\b會匹配以re開頭的單詞的後半部分(除了re以外的部分),例如在查找reading a book時,它匹配ading。

假如你想要給一個很長的數字中每三位間加一個逗號(當然是從右邊加起了),你可以這樣查找需要在前面和裏面添加逗號的部分:((?<=\d)\d{3})*\b。請仔細分析這個表達式,它可能不像你第一眼看出來的那麼簡單。

下面這個例子同時使用了前綴和後綴:(?<=\s)\d+(?=\s)匹配以空白符間隔的數字(再次強調,不包括這些空白符)。

負向位置指定
前面我們提到過怎麼查找不是某個字符或不在某個字符類裏的字符的方法(反義)。但是如果我們只是想要確保某個字符沒有出現,但並不想去匹配它時怎麼辦?例如,如果我們想查找這樣的單詞--它裏面出現了字母q,但是q後面跟的不是字母u,我們可以嘗試這樣:

\b\w*q[^u]\w*\b匹配包含後面不是字母u的字母q的單詞。但是如果多做測試(或者你思維足夠敏銳,直接就觀察出來了),你會發現,如果q出現在單詞的結尾的話,像Iraq,Benq,這個表達式就會出錯。這是因爲[^u]總是匹配一個字符,所以如果q是單詞的最後一個字符的話,後面的[^u]將會匹配q後面的單詞分隔符(可能是空格,或者是句號或其它的什麼),後面的\w*\b將會匹配下一個單詞,於是\b\w*q[^u]\w*\b就能匹配整個Iraq fighting。負向位置指定能解決這樣的問題,因爲它只匹配一個位置,並不消費任何字符。現在,我們可以這樣來解決這個問題:\b\w*q(?!u)\w*\b。

零寬負向先行斷言(?!exp),只會匹配後綴exp不存在的位置。\d{3}(?!\d)匹配三位數字,而且這三位數字的後面不能是數字。

同理,我們可以用(?<!exp),零寬負向後行斷言來查找前綴exp不存在的位置:(?<![a-z])\d{7}匹配前面不是小寫字母的七位數字(實驗時發現錯誤?注意你的“區分大小寫”先項是否選中)。

一個更復雜的例子:(?<=<(\w+)>).*(?=<\/\1>)匹配不包含屬性的簡單HTML標籤內裏的內容。(<?(\w+)>)指定了這樣的前綴:被尖括號括起來的單詞(比如可能是<b>),然後是.*(任意的字符串),最後是一個後綴(?=<\/\1>)。注意後綴裏的\/,它用到了前面提過的字符轉義;\1則是一個反向引用,引用的正是捕獲的第一組,前面的(\w+)匹配的內容,這樣如果前綴實際上是<b>的話,後綴就是</b>了。整個表達式匹配的是<b>和</b>之間的內容(再次提醒,不包括前綴和後綴本身)。

更多詳細參考:https://www.cnblogs.com/whaozl/p/5462865.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章