PHP正則表達式簡介

PHP支持兩種風格的正則表達式語法:POSIX和Perl。POSIX風格的正則表達式更容易掌握,但不能安全用於二進制模式,而Perl兼容的正則表達式相對比較複雜。

正則表達式就是有普通字符(如a~z)和特殊字符(稱爲元字符)組成的字符串模式。使用正則表達式可以完成以下功能:①測試字符串的某個模式;②替換文本;③根據模式匹配從字符串中提取一個子字符串。

一、POSIX風格的正則表達式

1.編寫正則表達式

正則表達式是有普通字符和元字符組成的,通過元字符和普通字符的不同組合,可以寫出不同意義的正則表達式。

POSIX正則表達式語法格式列表

字符描述
\轉義字符,用於轉義特殊字符。
^匹配輸入字符串的開始位置。
$匹配輸入字符串的結束位置。
*匹配前面的子表達式零次或多次。
+匹配前面的子表達式一次或多次。
?匹配前面的子表達式零次或一次。
{n}n是一個非負整數,匹配確定的n次。
{n,}n是一個非負整數,至少匹配n次。
{n,m}m和n均是非負整數,其中n<=m,最少匹配n次且最多匹配m次。注意在逗號和兩個數之間不能有空格。

?當該字符緊跟在任何一個其他限制符(*,+,?,{n},{n,},{n,m})後面時,匹配模式是非貪婪的。非貪婪模式儘可能少地匹配所搜索的字符串,而默認的貪婪模式則儘可能多地匹配所搜索的字符串。
.匹配除"\n"之外的任何單個字符,要匹配包括'\n'在內的任何字符,可以使用'[.\n]'的模式。
(pattern)匹配pattern並獲取這一匹配。所獲取的匹配保存到相應的數組中。要匹配圓括號字符,請使用'\('或'\)'。
(?:pattern)匹配pattern但不獲取匹配結果,也就是說這是一個非獲取匹配,不進行存儲。這在使用''或"|"來組合一個模式的各個部分時很有用。
(?=pattern)正向預查,在任何匹配pattern的字符串開始出匹配查找字符串。這是一個非獲取匹配,也就是說,該匹配不需要獲取供以後使用。預查不消耗字符,也就是說,在一個匹配發生後,在會後一次匹配之後立即開始下一次匹配的搜索,而不是從包含預查的字符之後開始。
(?!pattern)負向預查,在任何不匹配pattern的字符串開始處匹配查找字符串。這是一個非獲取匹配,也就是說該匹配不需要獲取供以後使用。預查不消耗字符,也就是說,在一個匹配發生後,在會後一次匹配之後立即開始下一次匹配的搜索,而不是從包含預查的字符之後開始。
x|y匹配x或y。
[xyz]字符集合。匹配所包含的任意一個字符。
[^xyz]負值匹配字符集。匹配未包含的任意字符。
[a-z]字符範圍。匹配製定範圍內的任意字符。
[^a-z]負值字符範圍。匹配不在指定範圍內的任意字符。

注意:在PHP中最好將正則表達式放在單引號中。

2.字符串的匹配

在PHP中,用於匹配POSIX風格正則表達式的函數有ereg()和eregi()函數。

使用ereg()函數可以查找字符串與子字符串匹配的情況,並返回匹配字符串的長度,還可以藉助參數返回匹配字符的數組。語法:

int ereg(string ($pattern), string $string[, array $reg])

ereg()函數在字符串$string中查找與給定正則表達式$pattern相匹配的子字符串。$pattern中可以使用圓括號“()”將一些子模式括起來獲取這一匹配。如果找到與$pattern圓括號內的子模式相匹配的子串並且函數調用了第三個參數$regs,則匹配項將被存入$regs數組中。$regs[1]包含第一個左圓括號開始的紫川,$regs[2]包含第二個子串,以此類推。$regs[0]好漢整個匹配的字符串。如果在$string中找到$pattern模式的匹配,則返回所匹配字符串的長度,如果沒有找到匹配或出錯則返回FALSE。如果沒有傳入可選參數$regs或者所匹配的字符串長度爲0,則本函數返回1.

eregi()函數功能與ereg()函數基本相同,不過ereg()函數區分大小寫,eregi()函數不區分大小寫。

3.字符串的替換

POSIX風格的正則表達式函數ereg_replace()函數與str_replace()函數一樣,可以將查到的字符串替換爲指定字符串。而ereg_replace()函數能實現更爲複雜的字符串操作。ereg_replace()函數語法格式:

string ereg_replace(string $pattern,string $replacement,string $string)

函數使用字符串$replacement替換字符串$string中的$pattern匹配的部分,並返回替換後的字符串。若未找到匹配項,則原樣返回。

如果$pattern包含有括號的子集,則$replacement可以包含形如“\\$num”的子串,$num表示一個數字,這些子串將被替換爲正則表達式中的$num個括號內的子串,這種用法成爲逆向引用。

eregi_replacement()函數不區分大小寫。

4.分割數組

使用split()函數可以完成與explode()函數一樣的功能,而且可以根據給出的正則表達式來分割字符串,並返回一個數組。

array split(string $pattern,string $string[,int $limit])

本函數使用$pattern作爲邊界對字符串$string進行分割,並將分割後的子字符串保存在數組中返回。如果設定了$limit,則返回的數組最多包含$limit個單元,而其中最後一個單元包含了$string中生育的所有部分。

spliti()函數不區分大小寫。

5.產生正則表達式

使用sql_regcase()函數可以產生不區分大小寫的正則表達式。

string sql_regcase(string $string)

函數返回與$string相匹配的正則表達式,不區分大小寫字母。返回的表達式是將$string中的每個字母字符轉換爲方括號表達式,該方括號表達式包含了該子母的大小寫形式。其他字符保留不變。

二、Perl兼容的正則表達式

1.編寫正則表達式

Perl兼容的正則表達式必須包含在定界符中,除數字、字幕、反斜線外的任何字符後可以作爲定界符,另外,如果定界符要出現在表達式中需要使用轉義符轉義。

Perl兼容的正則表達式擴充的語法格式

字符描述
\b

匹配一個單詞邊界,也就是指單詞和空格間的位置。

\B匹配非單詞邊界。
\cx匹配由x指明的控制字符。x的值必須爲A~Z或a~z之一。否則,將‘c’是爲一個原義的‘c’字符
\d匹配一個數字字符。
\D匹配一個非數字字符。
\f匹配一個換頁符。
\n匹配一個換行符。
\r匹配一個回車符。
\s匹配任何空白字符,包括空格、製表符、換頁符等。

\S匹配任何非空白字符。
\t匹配一個製表符
\v匹配一個垂直製表符
\w匹配包括下劃線的任何單詞字符。
\W匹配任何飛單詞字符。等價於[^A-Za-z0-9]
\xn匹配n,其中n爲十六進制轉義值。十六進制轉義值必須爲確定的兩個數字長。正則表達式中可以使用ASCII碼
\num匹配num,其中num是一個正整數。對所獲取的匹配的引用。
\n標誌一個八進制轉義值或一個後向引用。如果\n之前至少有n個獲取得子表達式,則n爲後向引用。否則,如果n爲八進制數字(0~7),則n爲一個八進制轉義值。
\nm標誌一個八進制轉義值或一個後向引用。如果\nm之前至少有nm個獲取得子表達式,則nm爲後向引用。如果\nm之前至少有n個獲取,則n爲一個後跟文字m的後向引用。如果前面的田間都不滿足,若n和m均爲八進制數字(0-7),則\nm將匹配八進制轉義值nm
\nml如果n爲八進制數字(0-3),且m和l均爲八進制數字(0-7),則匹配八進制轉義值nml
\un匹配n,其中n是用4個十六進制數字表示的Unicode字符。

2.字符串匹配

使用preg_match()函數進行字符串的查找。語法格式如下:

int preg_match(string $pattern,string $subject[,array $matchs[,int $flags]])

在$subject字符串中搜索與$pattern給出的正則表達式相匹配的內容。preg_match()函數返回$pattern所匹配的次數。不是0次就是1次,因爲preg_match()函數在第一次匹配之後將停止搜索。

函數如果提供了$matchs參數,則其會被搜索的結果所填充。$matchs[0]將包含與整個模式匹配的文本,$matchs[1]將包含與第一個捕獲的括號中的子模式所匹配的文本,以此類推。

preg_relpace()函數語法格式中$flags是可選參數,值可以是PREG_OFFSET_CAPTURE。如果設定本標記,對每個出現的匹配結果也同時返回其附屬的字符串偏移量。這改變了返回的數組的值,使其中的每個單元也是一個數組,其中第一項爲匹配字符串,第二項爲偏移量。

Perl兼容的正則表達式還有一個字符串匹配函數preg_match_all()。

int preg_match_all(string $pattern, string $subject,array $matchs[,int $flags])

該函數的語法格式與preg_match()函數相同,作用也是搜索指定字符串並放到相應數組中。不同的是,preg_match()函數在搜索到第一個匹配結果時就停止匹配,而preg_match_all()函數搜索到第一個匹配結果後會從第一個匹配項的末尾開始繼續搜索,知道搜索完整個字符串。preg_match_all()函數單數$flags的值可以取以下三種:

ⅠPREG_PATTERN_ORDER.默認項,表示$matchs[0]爲全部模式匹配的數組,$match[1]爲第一個括號中的子模式所匹配的字符串組成的數組,以此類推。

ⅡPREG_SET_ORDER.如果設定此標記,則$matches[0]爲第一組匹配項的數組,$matchs[1]爲第二組匹配項的數組,以此類推。

ⅢPREG_OFFSET_CAPTURE.此標記可以和其他兩個標記組合使用,如果設定本標記,對每個出現的匹配結果也同時返回其附屬的字符串偏移量。

3.字符串替換

使用preg_replace()函數可以在字符串中查找匹配的子字符串,並用指定字符串替換子字符串。

mixed preg_replace(mixed $pattern, mixed $replacement,mixed $subject[,int $limit])

在$subject中搜索$pattern模式的匹配項並替換爲$replacement。如果制定了$limit,則僅替換$limit個匹配項,如果省略$limit或者其值爲-1,則所有的匹配項都會被替換。

函數語法格式中,如果$subject是個數組,則會對$subject中的每個項目執行搜索和替換,並返回一個新數組。如果$pattern和$replacement都是數組,則$preg_replace()函數會依次從$pattern中取出值來對$subject進行搜索和替換。

4.字符串分割

preg_split()函數可以使用正則表達式作爲邊界分割一個字符串,並將字符串存入一個數組返回,作用於split()函數類似。

array preg_split(string $pattern ,string $subject[,int $limit[,int $length]])

本函數區分大小寫,返回一個數組,數組包含一個$subject中沿着與$pattern匹配的邊界所分割的子串。$limit是可選參數,如果指定則最多返回$limit個字串,如果省略或爲-1,則沒有限制。$flags的值可以是以下三種:

ⅠPREG_SPLIT_NO_EMPTY.如果設定本標記,則函數只返回非空的字符串。

ⅡPREG_SPLIT_DELIM_CAPTURE,如果設定本標記,定界符模式的括號表達式的匹配項也會被捕獲並返回。

ⅢPREG_SPLIT_OFFSET_CAPTURE.如果設定本標記,對每個出現的匹配結果也同時返回其附屬的字符串偏移量。

5.返回匹配的數組單元

使用preg_grep()函數可以根據條件查找指定的數組,並將符合條件的數組單元返回。

array preg_grep(string $pattern,array $input[,int $flags])

函數返回一個數組,數組包含$input數組中與$pattern相匹配的數組單元。$flags是可選參數,值可以是PREG_GREP_INVERT,表示返回輸入數組中不匹配給定$pattern的單元。

preg_grep()函數返回的數組使用原來數組的鍵名進行索引。

總結:在實際應用中,普通的字符串函數比正則表達式函數運行速度要快得多。在處理簡單的字符串時,最好使用字符串函數來完成。在處理一些複雜的字符串時,當字符串函數不能解決問題,可以選擇正則表達式函數來完成。如果要使用正則表達式函數,推薦使用Perl兼容的正則表達式函數。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章