正則表達式

以下內容轉自百度百科:http://baike.baidu.com/view/94238.htm&p=9a6fd45f86cc4af443be9b7e54&user=baidu

 

正則表達式之道

原著:Steve Mansour
[email protected]
Revised: June 5, 1999
(copied by jm /at/ jmason.org from http://www.scruz.net/%7esman/regexp.htm, after the original disappeared! )

翻譯:Neo Lee
[email protected]
2004年10月16日

英文版原文

譯者按:原文因爲年代久遠,文中很多鏈接早已過期(主要是關於vi、sed等工具的介紹和手冊),本譯文中已將此類鏈接刪除,如需檢查這些鏈接可以查看上面鏈接的原文。除此之外基本照原文直譯,括號中有“譯者按”的部分是譯者補充的說明。如有內容方面的問題請直接和Steve Mansor聯繫,當然,如果你只寫中文,也可以和我聯繫。
目 錄

什麼是正則表達式
範例
簡單
中級(神奇的咒語)
困難(不可思議的象形文字)
不同工具中的正則表達式

什麼是正則表達式
一個正則表達式,就是用某種模式去匹配一類字符串的一個公式。很多人因爲它們看上去比較古怪而且複雜所以不敢去使用——很不幸,這篇文章也不能夠改變這一點,不過,經過一點點練習之後我就開始覺得這些複雜的表達式其實寫起來還是相當簡單的,而且,一旦你弄懂它們,你就能把數小時辛苦而且易錯的文本處理工作壓縮在幾分鐘(甚至幾秒鐘)內完成。正則表達式被各種文本編輯軟件、類庫(例如Rogue Wave的tools.h++)、腳本工具(像awk/grep/sed)廣泛的支持,而且像Microsoft的Visual C++這種交互式IDE也開始支持它了。

我們將在如下的章節中利用一些例子來解釋正則表達式的用法,絕大部分的例子是基於vi中的文本替換命令和grep文件搜索命令來書寫的,不過它們都是比較典型的例子,其中的概念可以在sed、awk、perl和其他支持正則表達式的編程語言中使用。你可以看看不同工具中的正則表達式這一節,其中有一些在別的工具中使用正則表達式的例子。還有一個關於vi中文本替換命令(s)的簡單說明附在文後供參考。
正則表達式基礎
正則表達式由一些普通字符和一些元字符(metacharacters)組成。普通字符包括大小寫的字母和數字,而元字符則具有特殊的含義,我們下面會給予解釋。

在最簡單的情況下,一個正則表達式看上去就是一個普通的查找串。例如,正則表達式"testing"中沒有包含任何元字符,,它可以匹配"testing"和"123testing"等字符串,但是不能匹配"Testing"。

要想真正的用好正則表達式,正確的理解元字符是最重要的事情。下表列出了所有的元字符和對它們的一個簡短的描述。

元字符 描述

.
匹配任何單個字符。例如正則表達式r.t匹配這些字符串:rat、rut、r t,但是不匹配root。
$
匹配行結束符。例如正則表達式weasel$ 能夠匹配字符串"He's a weasel"的末尾,但是不能匹配字符串"They are a bunch of weasels."。
^
匹配一行的開始。例如正則表達式^When in能夠匹配字符串"When in the course of human events"的開始,但是不能匹配"What and When in the"。
*
匹配0或多個正好在它之前的那個字符。例如正則表達式.*意味着能夠匹配任意數量的任何字符。
/
這是引用符,用來將這裏列出的這些元字符當作普通的字符來進行匹配。例如正則表達式$被用來匹配美元符號,而不是行尾,類似的,正則表達式/.用來匹配點字符,而不是任何字符的通配符。
[ ]
[c1-c2]
[^c1-c2]
匹配括號中的任何一個字符。例如正則表達式r[aou]t匹配rat、rot和rut,但是不匹配ret。可以在括號中使用連字符-來指定字符的區間,例如正則表達式[0-9]可以匹配任何數字字符;還可以制定多個區間,例如正則表達式[A-Za-z]可以匹配任何大小寫字母。另一個重要的用法是“排除”,要想匹配除了指定區間之外的字符——也就是所謂的補集——在左邊的括號和第一個字符之間使用^字符,例如正則表達式[^269A-Z] 將匹配除了2、6、9和所有大寫字母之外的任何字符。
/< />
匹配詞(word)的開始(/<)和結束(/>)。例如正則表達式/<the能夠匹配字符串"for the wise"中的"the",但是不能匹配字符串"otherwise"中的"the"。注意:這個元字符不是所有的軟件都支持的。
/( /)
將 /( 和 /) 之間的表達式定義爲“組”(group),並且將匹配這個表達式的字符保存到一個臨時區域(一個正則表達式中最多可以保存9個),它們可以用 到 的符號來引用。
|
將兩個匹配條件進行邏輯“或”(Or)運算。例如正則表達式(him|her) 匹配"it belongs to him"和"it belongs to her",但是不能匹配"it belongs to them."。注意:這個元字符不是所有的軟件都支持的。
+
匹配1或多個正好在它之前的那個字符。例如正則表達式9+匹配9、99、999等。注意:這個元字符不是所有的軟件都支持的。
?
匹配0或1個正好在它之前的那個字符。注意:這個元字符不是所有的軟件都支持的。
/{i/}
/{i,j/}
匹配指定數目的字符,這些字符是在它之前的表達式定義的。例如正則表達式A[0-9]/{3/} 能夠匹配字符"A"後面跟着正好3個數字字符的串,例如A123、A348等,但是不匹配A1234。而正則表達式[0-9]/{4,6/} 匹配連續的任意4個、5個或者6個數字字符。注意:這個元字符不是所有的軟件都支持的。

最簡單的元字符是點,它能夠匹配任何單個字符(注意不包括新行符)。假定有個文件test.txt包含以下幾行內容:

he is a rat
he is in a rut
the food is Rotten
I like root beer

我們可以使用grep命令來測試我們的正則表達式,grep命令使用正則表達式去嘗試匹配指定文件的每一行,並將至少有一處匹配表達式的所有行顯示出來。命令

grep r.t test.txt

在test.txt文件中的每一行中搜索正則表達式r.t,並打印輸出匹配的行。正則表達式r.t匹配一個r接着任何一個字符再接着一個t。所以它將匹配文件中的rat和rut,而不能匹配Rotten中的Rot,因爲正則表達式是大小寫敏感的。要想同時匹配大寫和小寫字母,應該使用字符區間元字符(方括號)。正則表達式[Rr]能夠同時匹配R和r。所以,要想匹配一個大寫或者小寫的r接着任何一個字符再接着一個t就要使用這個表達式:[Rr].t。

要想匹配行首的字符要使用抑揚字符(^)——又是也被叫做插入符。例如,想找到text.txt中行首"he"打頭的行,你可能會先用簡單表達式he,但是這會匹配第三行的the,所以要使用正則表達式^he,它只匹配在行首出現的h。

有時候指定“除了×××都匹配”會比較容易達到目的,當抑揚字符(^)出現在方括號中是,它表示“排除”,例如要匹配he ,但是排除前面是t or s的情性(也就是the和she),可以使用:[^st]he。

可以使用方括號來指定多個字符區間。例如正則表達式[A-Za-z]匹配任何字母,包括大寫和小寫的;正則表達式[A-Za-z][A-Za-z]* 匹配一個字母后面接着0或者多個字母(大寫或者小寫)。當然我們也可以用元字符+做到同樣的事情,也就是:[A-Za-z]+ ,和[A-Za-z][A-Za-z]*完全等價。但是要注意元字符+ 並不是所有支持正則表達式的程序都支持的。關於這一點可以參考後面的正則表達式語法支持情況。

要指定特定數量的匹配,要使用大括號(注意必須使用反斜槓來轉義)。想匹配所有100和1000的實例而排除10和10000,可以使用:10/{2,3/},這個正則表達式匹配數字1後面跟着2或者3個0的模式。在這個元字符的使用中一個有用的變化是忽略第二個數字,例如正則表達式0/{3,/} 將匹配至少3個連續的0。
簡單的例子

這裏有一些有代表性的、比較簡單的例子。

vi 命令 作用

:%s/ */ /g 把一個或者多個空格替換爲一個空格。
:%s/ *$// 去掉行尾的所有空格。
:%s/^/ / 在每一行頭上加入一個空格。
:%s/^[0-9][0-9]* // 去掉行首的所有數字字符。
:%s/b[aeio]g/bug/g 將所有的bag、beg、big和bog改爲bug。
:%s/t/([aou]/)g/ht/g 將所有tag、tog和tug分別改爲hat、hot和hug(注意用group的用法和使用引用前面被匹配的字符)。

中級的例子(神奇的咒語)
例1

將所有方法foo(a,b,c)的實例改爲foo(b,a,c)。這裏a、b和c可以是任何提供給方法foo()的參數。也就是說我們要實現這樣的轉換:

之前 之後
foo(10,7,2) foo(7,10,2)
foo(x+13,y-2,10) foo(y-2,x+13,10)
foo( bar(8), x+y+z, 5) foo( x+y+z, bar(8), 5)

下面這條替換命令能夠實現這一魔法:

:%s/foo(/([^,]*/),/([^,]*/),/([^)]*/))/foo(,,)/g

現在讓我們把它打散來加以分析。寫出這個表達式的基本思路是找出foo()和它的括號中的三個參數的位置。第一個參數是用這個表達式來識別的::/([^,]*/),我們可以從裏向外來分析它:

[^,] 除了逗號之外的任何字符
[^,]* 0或者多個非逗號字符
/([^,]*/) 將這些非逗號字符標記爲,這樣可以在之後的替換模式表達式中引用它
/([^,]*/), 我們必須找到0或者多個非逗號字符後面跟着一個逗號,並且非逗號字符那部分要標記出來以備後用。

現在正是指出一個使用正則表達式常見錯誤的最佳時機。爲什麼我們要使用[^,]*這樣的一個表達式,而不是更加簡單直接的寫法,例如:.*,來匹配第一個參數呢?設想我們使用模式.*來匹配字符串"10,7,2",它應該匹配"10,"還是"10,7,"?爲了解決這個兩義性(ambiguity),正則表達式規定一律按照最長的串來,在上面的例子中就是"10,7,",顯然這樣就找出了兩個參數而不是我們期望的一個。所以,我們要使用[^,]*來強制取出第一個逗號之前的部分。

這個表達式我們已經分析到了:foo(/([^,]*/),這一段可以簡單的翻譯爲“當你找到foo(就把其後直到第一個逗號之前的部分標記爲”。然後我們使用同樣的辦法標記第二個參數爲。對第三個參數的標記方法也是一樣,只是我們要搜索所有的字符直到右括號。我們並沒有必要去搜索第三個參數,因爲我們不需要調整它的位置,但是這樣的模式能夠保證我們只去替換那些有三個參數的foo()方法調用,在foo()是一個重載(overoading)方法時這種明確的模式往往是比較保險的。然後,在替換部分,我們找到foo()的對應實例,然後利用標記好的部分進行替換,是的第一和第二個參數交換位置。
例2
假設有一個CSV(comma separated value)文件,裏面有一些我們需要的信息,但是格式卻有問題,目前數據的列順序是:姓名,公司名,州名縮寫,郵政編碼,現在我們希望講這些數據重新組織,以便在我們的某個軟件中使用,需要的格式爲:姓名,州名縮寫-郵政編碼,公司名。也就是說,我們要調整列順序,還要合併兩個列來構成一個新列。另外,我們的軟件不能接受逗號前後面有任何空格(包括空格和製表符)所以我們還必須要去掉逗號前後的所有空格。

這裏有幾行我們現在的數據:

Bill Jones, HI-TEK Corporation , CA, 95011
Sharon Lee Smith, Design Works Incorporated, CA, 95012
B. Amos , Hill Street Cafe, CA, 95013
Alexander Weatherworth, The Crafts Store, CA, 95014
...

我們希望把它變成這個樣子:

Bill Jones,CA 95011,HI-TEK Corporation
Sharon Lee Smith,CA 95012,Design Works Incorporated
B. Amos,CA 95013,Hill Street Cafe
Alexander Weatherworth,CA 95014,The Crafts Store
...

我們將用兩個正則表達式來解決這個問題。第一個移動列和合並列,第二個用來去掉空格。

下面就是第一個替換命令:

:%s//([^,]*/),/([^,]*/),/([^,]*/),/(.*/)/, ,/

這裏的方法跟例1基本一樣,第一個列(姓名)用這個表達式來匹配:/([^,]*/),即第一個逗號之前的所有字符,而姓名內容被用標記下來。公司名和州名縮寫字段用同樣的方法標記爲和,而最後一個字段用/(.*/)來匹配("匹配所有字符直到行末")。替換部分則引用上面標記的那些內容來進行構造。

下面這個替換命令則用來去除空格:

:%s/[ /t]*,[ /t]*/,/g

我們還是分解來看:[ /t]匹配空格/製表符,[ /t]* 匹配0或多個空格/製表符,[ /t]*,匹配0或多個空格/製表符後面再加一個逗號,最後,[ /t]*,[ /t]*匹配0或多個空格/製表符接着一個逗號再接着0或多個空格/製表符。在替換部分,我們簡單的我們找到的所有東西替換成一個逗號。這裏我們使用了結尾的可選的g參數,這表示在每行中對所有匹配的串執行替換(而不是缺省的只替換第一個匹配串)。
例3
假設有一個多字符的片斷重複出現,例如:

Billy tried really hard
Sally tried really really hard
Timmy tried really really really hard
Johnny tried really really really really hard

而你想把"really"、"really really",以及任意數量連續出現的"really"字符串換成一個簡單的"very"(simple is good!),那麼以下命令:

:%s//(really /)/(really /)*/very /

就會把上述的文本變成:

Billy tried very hard
Sally tried very hard
Timmy tried very hard
Johnny tried very hard

表達式/(really /)*匹配0或多個連續的"really "(注意結尾有個空格),而/(really /)/(really /)* 匹配1個或多個連續的"really "實例。
困難的例子(不可思議的象形文字)
Coming soon.

不同工具中的正則表達式
OK,你已經準備使用RE(regular expressions,正則表達式),但是你並準備使用vi。所以,在這裏我們給出一些在其他工具中使用RE的例子。另外,我還會總結一下你在不同程序之間使用RE可能發現的區別。

當然,你也可以在Visual C++編輯器中使用RE。選擇Edit->Replace,然後選擇"Regular expression"選擇框,Find What輸入框對應上面介紹的vi命令:%s/pat1/pat2/g中的pat1部分,而Replace輸入框對應pat2部分。但是,爲了得到vi的執行範圍和g選項,你要使用Replace All或者適當的手工Find Next and Replace(譯者按:知道爲啥有人罵微軟弱智了吧,雖然VC中可以選中一個範圍的文本,然後在其中執行替換,但是總之不夠vi那麼靈活和典雅)。
sed

Sed是Stream EDitor的縮寫,是Unix下常用的基於文件和管道的編輯工具,可以在手冊中得到關於sed的詳細信息。

這裏是一些有趣的sed腳本,假定我們正在處理一個叫做price.txt的文件。注意這些編輯並不會改變源文件,sed只是處理源文件的每一行並把結果顯示在標準輸出中(當然很容易使用重定向來定製):

sed腳本 描述

sed 's/^$/d' price.txt 刪除所有空行
sed 's/^[ /t]*$/d' price.txt 刪除所有隻包含空格或者製表符的行
sed 's/"//g' price.txt 刪除所有引號
awk
awk是一種編程語言,可以用來對文本數據進行復雜的分析和處理。可以在手冊中得到關於awk的詳細信息。這個古怪的名字是它作者們的姓的縮寫(Aho,Weinberger和Kernighan)。

在Aho,Weinberger和Kernighan的書The AWK Programming Language中有很多很好的awk的例子,請不要讓下面這些微不足道的腳本例子限制你對awk強大能力的理解。我們同樣假定我們針對price.txt文件進行處理,跟sed一樣,awk也只是把結果顯示在終端上。

awk腳本 描述

awk ' !~ /^$/' price.txt 刪除所有空行
awk 'NF > 0' price.txt awk中一個更好的刪除所有空行的辦法
awk ' ~ /^[JT]/ ' price.txt 打印所有第二個字段是'J'或者'T'打頭的行中的第三個字段
awk ' !~ /[Mm]isc/ {print + }' price.txt 針對所有第二個字段不包含'Misc'或者'misc'的行,打印第3和第4列的和(假定爲數字)
awk ' !~ /^[0-9]+/.[0-9]*$/ ' price.txt 打印所有第三個字段不是數字的行,這裏數字是指d.d或者d這樣的形式,其中d是0到9的任何數字
awk ' ~ /John|Fred/ ' price.txt 如果第二個字段包含'John'或者'Fred'則打印整行
grep
grep是一個用來在一個或者多個文件或者輸入流中使用RE進行查找的程序。它的name編程語言可以用來針對文件和管道進行處理。可以在手冊中得到關於grep的完整信息。這個同樣古怪的名字來源於vi的一個命令,g/re/p,意思是global regular expression print。

下面的例子中我們假定在文件phone.txt中包含以下的文本,——其格式是姓加一個逗號,然後是名,然後是一個製表符,然後是電話號碼:

Francis, John 5-3871
Wong, Fred 4-4123
Jones, Thomas 1-4122
Salazar, Richard 5-2522

grep命令 描述

grep '/t5-...1' phone.txt 把所有電話號碼以5開頭以1結束的行打印出來,注意製表符是用/t表示的
grep '^S[^ ]* R' phone.txt 打印所有姓以S打頭和名以R打頭的行
grep '^[JW]' phone.txt 打印所有姓開頭是J或者W的行
grep ', ..../t' phone.txt 打印所有姓是4個字符的行,注意製表符是用/t表示的
grep -v '^[JW]' phone.txt 打印所有不以J或者W開頭的行
grep '^[M-Z]' phone.txt 打印所有姓的開頭是M到Z之間任一字符的行
grep '^[M-Z].*[12]' phone.txt 打印所有姓的開頭是M到Z之間任一字符,並且點號號碼結尾是1或者2的行
egrep
egrep是grep的一個擴展版本,它在它的正則表達式中支持更多的元字符。下面的例子中我們假定在文件phone.txt中包含以下的文本,——其格式是姓加一個逗號,然後是名,然後是一個製表符,然後是電話號碼:

Francis, John 5-3871
Wong, Fred 4-4123
Jones, Thomas 1-4122
Salazar, Richard 5-2522

egrep command Description

egrep '(John|Fred)' phone.txt 打印所有包含名字John或者Fred的行
egrep 'John|22$|^W' phone.txt 打印所有包含John 或者以22結束或者以W的行
egrep 'net(work)?s' report.txt 從report.txt中找到所有包含networks或者nets的行
正則表達式語法支持情況
命令或環境 . [ ] ^ $ /( /) /{ /} ? + | ( )
vi X X X X X
Visual C++ X X X X X
awk X X X X X X X X
sed X X X X X X
Tcl X X X X X X X X X
ex X X X X X X
grep X X X X X X
egrep X X X X X X X X X
fgrep X X X X X
perl X X X X X X X X X


vi替換命令簡介
Vi的替換命令:

:ranges/pat1/pat2/g

其中

: 這是Vi的命令執行界面。

range 是命令執行範圍的指定,可以使用百分號(%)表示所有行,使用點(.)表示當前行,使用美元符號($)表示最後一行。你還可以使用行號,例如10,20表示第10到20行,.,$表示當前行到最後一行,.+2,$-5表示當前行後兩行直到全文的倒數第五行,等等。

s 表示其後是一個替換命令。

pat1 這是要查找的一個正則表達式,這篇文章中有一大堆例子。

pat2 這是希望把匹配串變成的模式的正則表達式,這篇文章中有一大堆例子。

g 可選標誌,帶這個標誌表示替換將針對行中每個匹配的串進行,否則則只替換行中第一個匹配串。

常用的正則表達式主要有以下幾種:
匹配中文字符的正則表達式: [/u4e00-/u9fa5]
評註:匹配中文還真是個頭疼的事,有了這個表達式就好辦了
匹配雙字節字符(包括漢字在內):[^/x00-/xff]
評註:可以用來計算字符串的長度(一個雙字節字符長度計2,ASCII字符計1)
匹配空白行的正則表達式:/n/s*/r
評註:可以用來刪除空白行
匹配HTML標記的正則表達式:<(/S*?)[^>]*>.*?</>|<.*? />
評註:網上流傳的版本太糟糕,上面這個也僅僅能匹配部分,對於複雜的嵌套標記依舊無能爲力
匹配首尾空白字符的正則表達式:^/s*|/s*$
評註:可以用來刪除行首行尾的空白字符(包括空格、製表符、換頁符等等),非常有用的表達式
匹配Email地址的正則表達式:/w+([-+.]/w+)*@/w+([-.]/w+)*/./w+([-.]/w+)*
評註:表單驗證時很實用
匹配網址URL的正則表達式:[a-zA-z]+://[^/s]*
評註:網上流傳的版本功能很有限,上面這個基本可以滿足需求
匹配帳號是否合法(字母開頭,允許5-16字節,允許字母數字下劃線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
評註:表單驗證時很實用
匹配國內電話號碼:/d-/d|/d-/d
評註:匹配形式如 0511-4405222 或 021-87888822
匹配騰訊QQ號:[1-9][0-9]{4,}
評註:騰訊QQ號從10000開始
匹配中國郵政編碼:[1-9]/d(?!/d)
評註:中國郵政編碼爲6位數字
匹配身份證:/d|/d
評註:中國的身份證爲15位或18位
匹配ip地址:/d+/./d+/./d+/./d+
評註:提取ip地址時有用
匹配特定數字:
^[1-9]/d*$    //匹配正整數
^-[1-9]/d*$   //匹配負整數
^-?[1-9]/d*$   //匹配整數
^[1-9]/d*|0$  //匹配非負整數(正整數 + 0)
^-[1-9]/d*|0$   //匹配非正整數(負整數 + 0)
^[1-9]/d*/./d*|0/./d*[1-9]/d*$   //匹配正浮點數
^-([1-9]/d*/./d*|0/./d*[1-9]/d*)$  //匹配負浮點數
^-?([1-9]/d*/./d*|0/./d*[1-9]/d*|0?/.0+|0)$  //匹配浮點數
^[1-9]/d*/./d*|0/./d*[1-9]/d*|0?/.0+|0$   //匹配非負浮點數(正浮點數 + 0)
^(-([1-9]/d*/./d*|0/./d*[1-9]/d*))|0?/.0+|0$  //匹配非正浮點數(負浮點數 + 0)
評註:處理大量數據時有用,具體應用時注意修正
匹配特定字符串:
^[A-Za-z]+$  //匹配由26個英文字母組成的字符串
^[A-Z]+$  //匹配由26個英文字母的大寫組成的字符串
^[a-z]+$  //匹配由26個英文字母的小寫組成的字符串
^[A-Za-z0-9]+$  //匹配由數字和26個英文字母組成的字符串
^/w+$  //匹配由數字、26個英文字母或者下劃線組成的字符串
評註:最基本也是最常用的一些表達式

Function IsRegu(Regu,s)
'正則表達式校驗
If Regu="" Then
Exit Function
End if

Dim Re,Sre
Set Re = New RegExp
Re.Pattern = Regu
Sre = Re.Test(s)
If Sre = True Then
IsRegu = True


不同的語言(如PHP和JAVA)、相同語言的不同類庫(如來自Sun的Java Regular Expression類庫跟Apache Jakarta的正則表達式類庫)間,用法會有所差別,在使用的時候,Else
IsRegu = False
End If
End Function
tmp="[email protected]"
if (IsRegu("/w+([-+.]/w+)*@/w+([-.]/w+)*/./w+([-.]/w+)*",tmp )) =false then
msgbox "E-mail地址不合法 !"
FieldCheck#N=false
end if要注意這些差別。

 

下面是百度快照內容:

正則表達式之道

原著:Steve Mansour
[email protected]Revised: June 5, 1999
(copied by jm /at/ jmason.org from http://www.scruz.net/%7esman/regexp.htm, after the original disappeared! )

翻譯:Neo Lee
[email protected]2004年10月16日

英文版原文

譯者按:原文因爲年代久遠,文中很多鏈接早已過期(主要是關於vi、sed等工具的介紹和手冊),本譯文中已將此類鏈接刪除,如需檢查這些鏈接可以查看上面鏈接的原文。除此之外基本照原文直譯,括號中有“譯者按”的部分是譯者補充的說明。如有內容方面的問題請直接和Steve Mansor聯繫,當然,如果你只寫中文,也可以和我聯繫。
目 錄

什麼是正則表達式
範例
   簡單
   中級(神奇的咒語)
   困難(不可思議的象形文字)
不同工具中的正則表達式

什麼是正則表達式
一個正則表達式,就是用某種模式去匹配一類字符串的一個公式。很多人因爲它們看上去比較古怪而且複雜所以不敢去使用——很不幸,這篇文章也不能夠改變這一點,不過,經過一點點練習之後我就開始覺得這些複雜的表達式其實寫起來還是相當簡單的,而且,一旦你弄懂它們,你就能把數小時辛苦而且易錯的文本處理工作壓縮在幾分鐘(甚至幾秒鐘)內完成。正則表達式被各種文本編輯軟件、類庫(例如Rogue Wave的tools.h++)、腳本工具(像awk/grep/sed)廣泛的支持,而且像Microsoft的Visual C++這種交互式IDE也開始支持它了。

我們將在如下的章節中利用一些例子來解釋正則表達式的用法,絕大部分的例子是基於vi中的文本替換命令和grep文件搜索命令來書寫的,不過它們都是比較典型的例子,其中的概念可以在sed、awk、perl和其他支持正則表達式的編程語言中使用。你可以看看不同工具中的正則表達式這一節,其中有一些在別的工具中使用正則表達式的例子。還有一個關於vi中文本替換命令(s)的簡單說明附在文後供參考。
正則表達式基礎
正則表達式由一些普通字符和一些元字符(metacharacters)組成。普通字符包括大小寫的字母和數字,而元字符則具有特殊的含義,我們下面會給予解釋。

在最簡單的情況下,一個正則表達式看上去就是一個普通的查找串。例如,正則表達式"testing"中沒有包含任何元字符,,它可以匹配"testing"和"123testing"等字符串,但是不能匹配"Testing"。

要想真正的用好正則表達式,正確的理解元字符是最重要的事情。下表列出了所有的元字符和對它們的一個簡短的描述。

元字符     描述
  
.
  匹配任何單個字符。例如正則表達式r.t匹配這些字符串:rat、rut、r t,但是不匹配root。
$
  匹配行結束符。例如正則表達式weasel$ 能夠匹配字符串"He's a weasel"的末尾,但是不能匹配字符串"They are a bunch of weasels."。
^
  匹配一行的開始。例如正則表達式^When in能夠匹配字符串"When in the course of human events"的開始,但是不能匹配"What and When in the"。
*
  匹配0或多個正好在它之前的那個字符。例如正則表達式.*意味着能夠匹配任意數量的任何字符。
/
  這是引用府,用來將這裏列出的這些元字符當作普通的字符來進行匹配。例如正則表達式/$被用來匹配美元符號,而不是行尾,類似的,正則表達式/.用來匹配點字符,而不是任何字符的通配符。
[ ]
[c1-c2]
[^c1-c2]
  匹配括號中的任何一個字符。例如正則表達式r[aou]t匹配rat、rot和rut,但是不匹配ret。可以在括號中使用連字符-來指定字符的區間,例如正則表達式[0-9]可以匹配任何數字字符;還可以制定多個區間,例如正則表達式[A-Za-z]可以匹配任何大小寫字母。另一個重要的用法是“排除”,要想匹配除了指定區間之外的字符——也就是所謂的補集——在左邊的括號和第一個字符之間使用^字符,例如正則表達式[^269A-Z] 將匹配除了2、6、9和所有大寫字母之外的任何字符。
/< />
  匹配詞(word)的開始(/<)和結束(/>)。例如正則表達式/<the能夠匹配字符串"for the wise"中的"the",但是不能匹配字符串"otherwise"中的"the"。注意:這個元字符不是所有的軟件都支持的。
/( /)
  將 /( 和 /) 之間的表達式定義爲“組”(group),並且將匹配這個表達式的字符保存到一個臨時區域(一個正則表達式中最多可以保存9個),它們可以用 /1 到/9 的符號來引用。
|
  將兩個匹配條件進行邏輯“或”(Or)運算。例如正則表達式(him|her) 匹配"it belongs to him"和"it belongs to her",但是不能匹配"it belongs to them."。注意:這個元字符不是所有的軟件都支持的。
+
  匹配1或多個正好在它之前的那個字符。例如正則表達式9+匹配9、99、999等。注意:這個元字符不是所有的軟件都支持的。
?
  匹配0或1個正好在它之前的那個字符。注意:這個元字符不是所有的軟件都支持的。
/{i/}
/{i,j/}
  匹配指定數目的字符,這些字符是在它之前的表達式定義的。例如正則表達式A[0-9]/{3/} 能夠匹配字符"A"後面跟着正好3個數字字符的串,例如A123、A348等,但是不匹配A1234。而正則表達式[0-9]/{4,6/} 匹配連續的任意4個、5個或者6個數字字符。注意:這個元字符不是所有的軟件都支持的。

最簡單的元字符是點,它能夠匹配任何單個字符(注意不包括新行符)。假定有個文件test.txt包含以下幾行內容:

      he is a rat
      he is in a rut
      the food is Rotten
      I like root beer

我們可以使用grep命令來測試我們的正則表達式,grep命令使用正則表達式去嘗試匹配指定文件的每一行,並將至少有一處匹配表達式的所有行顯示出來。命令

      grep r.t test.txt

在test.txt文件中的每一行中搜索正則表達式r.t,並打印輸出匹配的行。正則表達式r.t匹配一個r接着任何一個字符再接着一個t。所以它將匹配文件中的rat和rut,而不能匹配Rotten中的Rot,因爲正則表達式是大小寫敏感的。要想同時匹配大寫和小寫字母,應該使用字符區間元字符(方括號)。正則表達式[Rr]能夠同時匹配R和r。所以,要想匹配一個大寫或者小寫的r接着任何一個字符再接着一個t就要使用這個表達式:[Rr].t。

要想匹配行首的字符要使用抑揚字符(^)——又是也被叫做插入符。例如,想找到text.txt中行首"he"打頭的行,你可能會先用簡單表達式he,但是這會匹配第三行的the,所以要使用正則表達式^he,它只匹配在行首出現的h。

有時候指定“除了×××都匹配”會比較容易達到目的,當抑揚字符(^)出現在方括號中是,它表示“排除”,例如要匹配he ,但是排除前面是t or s的情性(也就是the和she),可以使用:[^st]he。

可以使用方括號來指定多個字符區間。例如正則表達式[A-Za-z]匹配任何字母,包括大寫和小寫的;正則表達式[A-Za-z][A-Za-z]* 匹配一個字母后面接着0或者多個字母(大寫或者小寫)。當然我們也可以用元字符+做到同樣的事情,也就是:[A-Za-z]+ ,和[A-Za-z][A-Za-z]*完全等價。但是要注意元字符+ 並不是所有支持正則表達式的程序都支持的。關於這一點可以參考後面的正則表達式語法支持情況。

要指定特定數量的匹配,要使用大括號(注意必須使用反斜槓來轉義)。想匹配所有100和1000的實例而排除10和10000,可以使用:10/{2,3/},這個正則表達式匹配數字1後面跟着2或者3個0的模式。在這個元字符的使用中一個有用的變化是忽略第二個數字,例如正則表達式0/{3,/} 將匹配至少3個連續的0。
簡單的例子

這裏有一些有代表性的、比較簡單的例子。

vi 命令  作用

:%s/ */ /g  把一個或者多個空格替換爲一個空格。
:%s/ *$//  去掉行尾的所有空格。
:%s/^/ /  在每一行頭上加入一個空格。
:%s/^[0-9][0-9]* //  去掉行首的所有數字字符。
:%s/b[aeio]g/bug/g  將所有的bag、beg、big和bog改爲bug。
:%s/t/([aou]/)g/h/1t/g  將所有tag、tog和tug分別改爲hat、hot和hug(注意用group的用法和使用/1引用前面被匹配的字符)。

中級的例子(神奇的咒語)
例1

將所有方法foo(a,b,c)的實例改爲foo(b,a,c)。這裏a、b和c可以是任何提供給方法foo()的參數。也就是說我們要實現這樣的轉換:

之前     之後
foo(10,7,2)   foo(7,10,2)
foo(x+13,y-2,10)   foo(y-2,x+13,10)
foo( bar(8), x+y+z, 5)   foo( x+y+z, bar(8), 5)

下面這條替換命令能夠實現這一魔法:

      :%s/foo(/([^,]*/),/([^,]*/),/([^)]*/))/foo(/2,/1,/3)/g

現在讓我們把它打散來加以分析。寫出這個表達式的基本思路是找出foo()和它的括號中的三個參數的位置。第一個參數是用這個表達式來識別的::/([^,]*/),我們可以從裏向外來分析它:

[^,]     除了逗號之外的任何字符
[^,]*   0或者多個非逗號字符
/([^,]*/)   將這些非逗號字符標記爲/1,這樣可以在之後的替換模式表達式中引用它
/([^,]*/),   我們必須找到0或者多個非逗號字符後面跟着一個逗號,並且非逗號字符那部分要標記出來以備後用。

現在正是指出一個使用正則表達式常見錯誤的最佳時機。爲什麼我們要使用[^,]*這樣的一個表達式,而不是更加簡單直接的寫法,例如:.*,來匹配第一個參數呢?設想我們使用模式.*來匹配字符串"10,7,2",它應該匹配"10,"還是"10,7,"?爲了解決這個兩義性(ambiguity),正則表達式規定一律按照最長的串來,在上面的例子中就是"10,7,",顯然這樣就找出了兩個參數而不是我們期望的一個。所以,我們要使用[^,]*來強制取出第一個逗號之前的部分。

這個表達式我們已經分析到了:foo(/([^,]*/),這一段可以簡單的翻譯爲“當你找到foo(就把其後直到第一個逗號之前的部分標記爲/1”。然後我們使用同樣的辦法標記第二個參數爲/2。對第三個參數的標記方法也是一樣,只是我們要搜索所有的字符直到右括號。我們並沒有必要去搜索第三個參數,因爲我們不需要調整它的位置,但是這樣的模式能夠保證我們只去替換那些有三個參數的foo()方法調用,在foo()是一個重載(overoading)方法時這種明確的模式往往是比較保險的。然後,在替換部分,我們找到foo()的對應實例,然後利用標記好的部分進行替換,是的第一和第二個參數交換位置。
例2
假設有一個CSV(comma separated value)文件,裏面有一些我們需要的信息,但是格式卻有問題,目前數據的列順序是:姓名,公司名,州名縮寫,郵政編碼,現在我們希望講這些數據重新組織,以便在我們的某個軟件中使用,需要的格式爲:姓名,州名縮寫-郵政編碼,公司名。也就是說,我們要調整列順序,還要合併兩個列來構成一個新列。另外,我們的軟件不能接受逗號前後面有任何空格(包括空格和製表符)所以我們還必須要去掉逗號前後的所有空格。

這裏有幾行我們現在的數據:

      Bill Jones,     HI-TEK Corporation ,  CA, 95011
      Sharon Lee Smith,  Design Works Incorporated,  CA, 95012
      B. Amos   ,  Hill Street Cafe,  CA, 95013
      Alexander Weatherworth,  The Crafts Store,  CA, 95014
      ...

我們希望把它變成這個樣子:

      Bill Jones,CA 95011,HI-TEK Corporation
      Sharon Lee Smith,CA 95012,Design Works Incorporated
      B. Amos,CA 95013,Hill Street Cafe
      Alexander Weatherworth,CA 95014,The Crafts Store
      ...

我們將用兩個正則表達式來解決這個問題。第一個移動列和合並列,第二個用來去掉空格。

下面就是第一個替換命令:

      :%s//([^,]*/),/([^,]*/),/([^,]*/),/(.*/)//1,/3 /4,/2/

這裏的方法跟例1基本一樣,第一個列(姓名)用這個表達式來匹配:/([^,]*/),即第一個逗號之前的所有字符,而姓名內容被用/1標記下來。公司名和州名縮寫字段用同樣的方法標記爲/2和/3,而最後一個字段用/(.*/)來匹配("匹配所有字符直到行末")。替換部分則引用上面標記的那些內容來進行構造。

下面這個替換命令則用來去除空格:

      :%s/[ /t]*,[ /t]*/,/g

我們還是分解來看:[ /t]匹配空格/製表符,[ /t]* 匹配0或多個空格/製表符,[ /t]*,匹配0或多個空格/製表符後面再加一個逗號,最後,[ /t]*,[ /t]*匹配0或多個空格/製表符接着一個逗號再接着0或多個空格/製表符。在替換部分,我們簡單的我們找到的所有東西替換成一個逗號。這裏我們使用了結尾的可選的g參數,這表示在每行中對所有匹配的串執行替換(而不是缺省的只替換第一個匹配串)。
例3
假設有一個多字符的片斷重複出現,例如:

    Billy tried really hard
    Sally tried really really hard
    Timmy tried really really really hard
    Johnny tried really really really really hard

而你想把"really"、"really really",以及任意數量連續出現的"really"字符串換成一個簡單的"very"(simple is good!),那麼以下命令:

    :%s//(really /)/(really /)*/very /

就會把上述的文本變成:

    Billy tried very hard
    Sally tried very hard
    Timmy tried very hard
    Johnny tried very hard

表達式/(really /)*匹配0或多個連續的"really "(注意結尾有個空格),而/(really /)/(really /)* 匹配1個或多個連續的"really "實例。
困難的例子(不可思議的象形文字)
Coming soon.

不同工具中的正則表達式
OK,你已經準備使用RE(regular expressions,正則表達式),但是你並準備使用vi。所以,在這裏我們給出一些在其他工具中使用RE的例子。另外,我還會總結一下你在不同程序之間使用RE可能發現的區別。

當然,你也可以在Visual C++編輯器中使用RE。選擇Edit->Replace,然後選擇"Regular expression"選擇框,Find What輸入框對應上面介紹的vi命令:%s/pat1/pat2/g中的pat1部分,而Replace輸入框對應pat2部分。但是,爲了得到vi的執行範圍和g選項,你要使用Replace All或者適當的手工Find Next and Replace(譯者按:知道爲啥有人罵微軟弱智了吧,雖然VC中可以選中一個範圍的文本,然後在其中執行替換,但是總之不夠vi那麼靈活和典雅)。
sed

Sed是Stream EDitor的縮寫,是Unix下常用的基於文件和管道的編輯工具,可以在手冊中得到關於sed的詳細信息。

這裏是一些有趣的sed腳本,假定我們正在處理一個叫做price.txt的文件。注意這些編輯並不會改變源文件,sed只是處理源文件的每一行並把結果顯示在標準輸出中(當然很容易使用重定向來定製):

sed腳本     描述
  
sed 's/^$/d' price.txt   刪除所有空行
sed 's/^[ /t]*$/d' price.txt   刪除所有隻包含空格或者製表符的行
sed 's/"//g' price.txt   刪除所有引號
awk
awk是一種編程語言,可以用來對文本數據進行復雜的分析和處理。可以在手冊中得到關於awk的詳細信息。這個古怪的名字是它作者們的姓的縮寫(Aho,Weinberger和Kernighan)。

在Aho,Weinberger和Kernighan的書The AWK Programming Language中有很多很好的awk的例子,請不要讓下面這些微不足道的腳本例子限制你對awk強大能力的理解。我們同樣假定我們針對price.txt文件進行處理,跟sed一樣,awk也只是把結果顯示在終端上。

awk腳本     描述
  
awk ' !~ /^$/' price.txt   刪除所有空行
awk 'NF > 0' price.txt   awk中一個更好的刪除所有行的辦法
awk ' ~ /^[JT]/ ' price.txt   打印所有第二個字段是'J'或者'T'打頭的行中的第三個字段
awk ' !~ /[Mm]isc/ {print  + }' price.txt   針對所有第二個字段不包含'Misc'或者'misc'的行,打印第3和第4列的和(假定爲數字)
awk ' !~ /^[0-9]+/.[0-9]*$/ ' price.txt   打印所有第三個字段不是數字的行,這裏數字是指d.d或者d這樣的形式,其中d是0到9的任何數字
awk ' ~ /John|Fred/ ' price.txt   如果第二個字段包含'John'或者'Fred'則打印整行
grep
grep是一個用來在一個或者多個文件或者輸入流中使用RE進行查找的程序。它的name編程語言可以用來針對文件和管道進行處理。可以在手冊中得到關於grep的完整信息。這個同樣古怪的名字來源於vi的一個命令,g/re/p,意思是global regular expression print。

下面的例子中我們假定在文件phone.txt中包含以下的文本,——其格式是姓加一個逗號,然後是名,然後是一個製表符,然後是電話號碼:

      Francis, John           5-3871
      Wong, Fred              4-4123
      Jones, Thomas           1-4122
      Salazar, Richard        5-2522

grep命令     描述
  
grep '/t5-...1' phone.txt   把所有電話號碼以5開頭以1結束的行打印出來,注意製表符是用/t表示的
grep '^S[^ ]* R' phone.txt   打印所有姓以S打頭和名以R打頭的行
grep '^[JW]' phone.txt   打印所有姓開頭是J或者W的行
grep ', ..../t' phone.txt   打印所有姓是4個字符的行,注意製表符是用/t表示的
grep -v '^[JW]' phone.txt   打印所有不以J或者W開頭的行
grep '^[M-Z]' phone.txt   打印所有姓的開頭是M到Z之間任一字符的行
grep '^[M-Z].*[12]' phone.txt   打印所有姓的開頭是M到Z之間任一字符,並且點號號碼結尾是1或者2的行
egrep
egrep是grep的一個擴展版本,它在它的正則表達式中支持更多的元字符。下面的例子中我們假定在文件phone.txt中包含以下的文本,——其格式是姓加一個逗號,然後是名,然後是一個製表符,然後是電話號碼:

      Francis, John           5-3871
      Wong, Fred              4-4123
      Jones, Thomas           1-4122
      Salazar, Richard        5-2522

egrep command     Description
  
egrep '(John|Fred)' phone.txt   打印所有包含名字John或者Fred的行
egrep 'John|22$|^W' phone.txt   打印所有包含John 或者以22結束或者以W的行
egrep 'net(work)?s' report.txt   從report.txt中找到所有包含networks或者nets的行
正則表達式語法支持情況
命令或環境  .  [ ]  ^  $  /( /)  /{ /}  ?  +  |  ( )
vi   X    X    X    X    X               
Visual C++   X    X    X    X    X               
awk   X    X    X    X          X    X    X    X
sed   X    X    X    X    X    X            
Tcl   X    X    X    X    X       X    X    X    X
ex   X    X    X    X    X    X            
grep   X    X    X    X    X    X            
egrep   X    X   X    X    X       X    X    X    X
fgrep   X    X    X    X    X               
perl   X   X   X   X   X      X   X   X   X


vi替換命令簡介
Vi的替換命令:

      :ranges/pat1/pat2/g

其中

      : 這是Vi的命令執行界面。

      range 是命令執行範圍的指定,可以使用百分號(%)表示所有行,使用點(.)表示當前行,使用美元符號($)表示最後一行。你還可以使用行號,例如10,20表示第10到20行,.,$表示當前行到最後一行,.+2,$-5表示當前行後兩行直到全文的倒數第五行,等等。

      s 表示其後是一個替換命令。

      pat1 這是要查找的一個正則表達式,這篇文章中有一大堆例子。

      pat2 這是希望把匹配串變成的模式的正則表達式,這篇文章中有一大堆例子。

      g 可選標誌,帶這個標誌表示替換將針對行中每個匹配的串進行,否則則只替換行中第一個匹配串。

網上有很多vi的在線手冊,你可以訪問他們以獲得更加完整的信息。

[回到主頁]


目前,正則表達式已經在很多軟件中得到廣泛的應用,包括*nix(Linux, Unix等),HP等操作系統,PHP,C#,Java等開發環境,以及很多的應用軟件中,都可以看到正則表達式的影子。
正則表達式的使用,可以通過簡單的辦法來實現強大的功能。爲了簡單有效而又不失強大,造成了正則表達式代碼的難度較大,學習起來也不是很容易,所以需要付出一些努力才行,入門之後參照一定的參考,使用起來還是比較簡單有效的。

2. 正則表達式的歷史
正則表達式的“祖先”可以一直上溯至對人類神經系統如何工作的早期研究。Warren McCulloch 和 Walter Pitts 這兩位神經生理學家研究出一種數學方式來描述這些神經網絡。
1956 年, 一位叫 Stephen Kleene 的數學家在 McCulloch 和 Pitts 早期工作的基礎上,發表了一篇標題爲“神經網事件的表示法”的論文,引入了正則表達式的概念。正則表達式就是用來描述他稱爲“正則集的代數”的表達式,因此採用“正則表達式”這個術語。
隨後,發現可以將這一工作應用於使用 Ken Thompson 的計算搜索算法的一些早期研究,Ken Thompson 是 Unix 的主要發明人。正則表達式的第一個實用應用程序就是 Unix 中的 qed 編輯器。
如他們所說,剩下的就是衆所周知的歷史了。從那時起直至現在正則表達式都是基於文本的編輯器和搜索工具中的一個重要部分

3. 正則表達式定義
正則表達式(regular expression)描述了一種字符串匹配的模式,可以用來檢查一個串是否含有某種子串、將匹配的子串做替換或者從某個串中取出符合某個條件的子串等。
列目錄時, dir *.txt或ls *.txt中的*.txt就不是一個正則表達式,因爲這裏*與正則式的*的含義是不同的。
正則表達式是由普通字符(例如字符 a 到 z)以及特殊字符(稱爲元字符)組成的文字模式。正則表達式作爲一個模板,將某個字符模式與所搜索的字符串進行匹配。

3.1 普通字符
由所有那些未顯式指定爲元字符的打印和非打印字符組成。這包括所有的大寫和小寫字母字符,所有數字,所有標點符號以及一些符號。

3.2 非打印字符 字符 含義
/cx 匹配由x指明的控制字符。例如, /cM 匹配一個 Control-M 或回車符。x 的值必須爲 A-Z 或 a-z 之一。否則,將 c 視爲一個原義的 'c' 字符。
/f 匹配一個換頁符。等價於 /x0c 和 /cL。
/n 匹配一個換行符。等價於 /x0a 和 /cJ。
/r 匹配一個回車符。等價於 /x0d 和 /cM。
/s 匹配任何空白字符,包括空格、製表符、換頁符等等。等價於 [ /f/n/r/t/v]。
/S 匹配任何非空白字符。等價於 [^ /f/n/r/t/v]。
/t 匹配一個製表符。等價於 /x09 和 /cI。
/v 匹配一個垂直製表符。等價於 /x0b 和 /cK。

3.3 特殊字符
所謂特殊字符,就是一些有特殊含義的字符,如上面說的"*.txt"中的*,簡單的說就是表示任何字符串的意思。如果要查找文件名中有*的文件,則需要對*進行轉義,即在其前加一個/。ls /*.txt。正則表達式有以下特殊字符。

特別字符 說明
$ 匹配輸入字符串的結尾位置。如果設置了 RegExp 對象的 Multiline 屬性,則 $ 也匹配 '/n' 或 '/r'。要匹配 $ 字符本身,請使用 /$。
( ) 標記一個子表達式的開始和結束位置。子表達式可以獲取供以後使用。要匹配這些字符,請使用 /( 和 /)。
* 匹配前面的子表達式零次或多次。要匹配 * 字符,請使用 /*。
+ 匹配前面的子表達式一次或多次。要匹配 + 字符,請使用 /+。
. 匹配除換行符 /n之外的任何單字符。要匹配 .,請使用 /。
[ 標記一箇中括號表達式的開始。要匹配 [,請使用 /[。
? 匹配前面的子表達式零次或一次,或指明一個非貪婪限定符。要匹配 ? 字符,請使用 /?。
/ 將下一個字符標記爲或特殊字符、或原義字符、或向後引用、或八進制轉義符。例如, 'n' 匹配字符 'n'。'/n' 匹配換行符。序列 '//' 匹配 "/",而 '/(' 則匹配 "("。
^ 匹配輸入字符串的開始位置,除非在方括號表達式中使用,此時它表示不接受該字符集合。要匹配 ^ 字符本身,請使用 /^。
{ 標記限定符表達式的開始。要匹配 {,請使用 /{。
| 指明兩項之間的一個選擇。要匹配 |,請使用 /|。
構造正則表達式的方法和創建數學表達式的方法一樣。也就是用多種元字符與操作符將小的表達式結合在一起來創建更大的表達式。正則表達式的組件可以是單個的字符、字符集合、字符範圍、字符間的選擇或者所有這些組件的任意組合。

3.4 限定符
限定符用來指定正則表達式的一個給定組件必須要出現多少次才能滿足匹配。有*或+或?或或{n,}或{n,m}共6種。
*、+和?限定符都是貪婪的,因爲它們會儘可能多的匹配文字,只有在它們的後面加上一個?就可以實現非貪婪或最小匹配。
正則表達式的限定符有:

字符 描述
* 匹配前面的子表達式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。* 等價於{0,}。
+ 匹配前面的子表達式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等價於 {1,}。
? 匹配前面的子表達式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等價於 {0,1}。
n 是一個非負整數。匹配確定的 n 次。例如,'o' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的兩個 o。
{n,} n 是一個非負整數。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等價於 'o+'。'o{0,}' 則等價於 'o*'。
{n,m} m 和 n 均爲非負整數,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 將匹配 "fooooood" 中的前三個 o。'o{0,1}' 等價於 'o?'。請注意在逗號和兩個數之間不能有空格。

3.5 定位符
用來描述字符串或單詞的邊界,^和$分別指字符串的開始與結束,/b描述單詞的前或後邊界,/B表示非單詞邊界。不能對定位符使用限定符。

3.6 選擇
用圓括號將所有選擇項括起來,相鄰的選擇項之間用|分隔。但用圓括號會有一個副作用,是相關的匹配會被緩存,此時可用?:放在第一個選項前來消除這種副作用。
其中?:是非捕獲元之一,還有兩個非捕獲元是?=和?!,這兩個還有更多的含義,前者爲正向預查,在任何開始匹配圓括號內的正則表達式模式的位置來匹配搜索字符串,後者爲負向預查,在任何開始不匹配該正則表達式模式的位置來匹配搜索字符串。

3.7 後向引用
對一個正則表達式模式或部分模式兩邊添加圓括號將導致相關匹配存儲到一個臨時緩衝區中,所捕獲的每個子匹配都按照在正則表達式模式中從左至右所遇到的內容存儲。存儲子匹配的緩衝區編號從 1 開始,連續編號直至最大 99 個子表達式。每個緩衝區都可以使用 '/n' 訪問,其中 n 爲一個標識特定緩衝區的一位或兩位十進制數。
可以使用非捕獲元字符 '?:', '?=', or '?!' 來忽略對相關匹配的保存。



正則表達式庫        http://regexlib.com/default.aspx
正則表達式在線驗證(薦)        http://osteele.com/tools/rework/#
正則表達式在線演示        http://osteele.com/tools/reanimator/
正則表達式在線驗證(中文)        http://www.regexlab.com/zh/workshop.asp
RegexBuddy最好的正則表達式學習驗證工具        http://www.regexbuddy.com/

發佈了37 篇原創文章 · 獲贊 20 · 訪問量 7萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章