正則表達式詳解

概念
是指一個用來描述或者匹配一系列符合某個句法規則的字符串的單個字符串。在很多文本編輯器或其他工具裏,正則表達式通常被用來檢索和/或替換那些符合某個模式的文本內容。許多程序設計語言都支持利用正則表達式進行字符串操作。例如,在Perl中就內建了一個功能強大的正則表達式引擎。正則表達式這個概念最初是由Unix中的工具軟件(例如sed和grep)普及開的。正則表達式通常縮寫成“regex”,單數有regexp、regex,複數有regexps、regexes、regexen。

基礎

(摘自《正則表達式之道》)
  正則表達式由一些普通字符和一些元字符(metacharacters)組成。普通字符包括大小寫的字母和數字,而元字符則具有特殊的含義,我們下面會給予解釋。
  在最簡單的情況下,一個正則表達式看上去就是一個普通的查找串。例如,正則表達式"testing"中沒有包含任何元字符,它可以匹配"testing"和"123testing"等字符串,但是不能匹配"Testing"。
  要想真正的用好正則表達式,正確的理解元字符是最重要的事情。下表列出了所有的元字符和對它們的一個簡短的描述。
元字符 描述
.點 匹配任何單個字符。例如正則表達式r.t匹配這些字符串:rat、rut、r t,但是不匹配root。
$ 匹配行結束符。例如正則表達式weasel$ 能夠匹配字符串"He's a weasel"的末尾
但是不能匹配字符串"They are a bunch of weasels."
^ 匹配一行的開始。例如正則表達式^When in能夠匹配字符串"When in the course of human events"的開始,但是不能匹配"What and When in the"
* 匹配0或多個正好在它之前的那個字符。例如正則表達式 .* 意味着能夠匹配任意數量的任何字符。比如<T>.*</T> 可以匹配<T>不管是什麼</T>
\ 這是引用符,用來將這裏列出的這些元字符當作普通的字符來進行匹配。例如正則表達式\$被用來匹配美元符號,而不是行尾,類似的,正則表達式\.用來匹配點字符,而不是任何字符的通配符。
[ ]
[c1-c2]
[^c1-c2]
匹配括號中的任何一個字符。例如正則表達式r[aou]t匹配rat、rot和rut,但是不匹配ret。可以在括號中使用連字符-來指定字符的區間,例如正則表達式[0-9]可以匹配任何數字字符;還可以制定多個區間,例如正則表達式[A-Za-z]可以匹配任何大小寫字母。另一個重要的用法是“排除”,要想匹配除了指定區間之外的字符——也就是所謂的補集——在左邊的括號和第一個字符之間使用^字符,例如正則表達式[^269A-Z] 將匹配除了2、6、9和所有大寫字母之外的任何字符。
\< \> 匹配詞(word)的開始(\<)和結束(\>)。例如正則表達式\<the\>能夠匹配字符串"for the wise"中的"the",但是不能匹配字符串"otherwise"中的"the"。注意:這個元字符不是所有的軟件都支持的。
\( \) 將 \( 和 \) 之間的表達式定義爲“組”(group),並且將匹配這個表達式的字符保存到一個臨時區域(一個正則表達式中最多可以保存9個),它們可以用 \1 到\9 的符號來引用。
| 將兩個匹配條件進行邏輯“或”(Or)運算。例如正則表達式(him|her) 匹配"it belongs to him"和"it belongs to her",但是不能匹配"it belongs to them."。注意:這個元字符不是所有的軟件都支持的。
+ 匹配1或多個正好在它之前的那個字符。例如正則表達式9+匹配9、99、999等。注意:這個元字符不是所有的軟件都支持的。
? 匹配0或1個正好在它之前的那個字符。注意:這個元字符不是所有的軟件都支持的。
{i}
{i,j}
匹配指定數目的字符,這些字符是在它之前的表達式定義的。例如正則表達式A[0-9]{3} 能夠匹配字符"A"後面跟着正好3個數字字符的串,例如A123、A348等,但是不匹配A1234。而正則表達式[0-9]{4,6} 匹配連續的任意4個、5個或者6個數字字符。注意:這個元字符不是所有的軟件都支持的。

常用的正則表達式

常用的正則表達式主要有以下幾種:
  匹配中文字符的正則表達式: [\u4e00-\u9fa5]
  評註:匹配中文還真是個頭疼的事,有了這個表達式就好辦了哦
  獲取日期正則表達式:\d{4}[年|\-|\.]\d{\1-\12}[月|\-|\.]\d{\1-\31}日?
  評註:可用來匹配大多數年月日信息。
  匹配雙字節字符(包括漢字在內):[^\x00-\xff]
  評註:可以用來計算字符串的長度(一個雙字節字符長度計2,ASCII字符計1)
  匹配空白行的正則表達式:\n\s*\r
  評註:可以用來刪除空白行
  匹配HTML標記的正則表達式:<(\S*?)[^>]*>.*?</>|<.*? />
  評註:網上流傳的版本太糟糕,上面這個也僅僅能匹配部分,對於複雜的嵌套標記依舊無能爲力
  匹配首尾空白字符的正則表達式:^\s*|\s*$
  評註:可以用來刪除行首行尾的空白字符(包括空格、製表符、換頁符等等),非常有用的表達式
  匹配Email地址的正則表達式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
  評註:表單驗證時很實用
  匹配網址URL的正則表達式:[a-zA-z]+://[^\s]*
  評註:網上流傳的版本功能很有限,上面這個基本可以滿足需求
  匹配帳號是否合法(字母開頭,允許5-16字節,允許字母數字下劃線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
  評註:表單驗證時很實用
  匹配國內電話號碼:\d{4}-\d{7}|\d{3}-\d{8}
  評註:匹配形式如 0511 - 4405222 或 021 - 87888822
  匹配騰訊QQ號:[1-9][0-9]\{4,\}
  評註:騰訊QQ號從1000 0 開始
  匹配中國郵政編碼:[1-9]\d{5}(?!\d)
  評註:中國郵政編碼爲6位數字
  匹配身份證:\d{17}[\d|X]|\d{15}
  評註:中國的身份證爲15位或18位
  匹配ip地址:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。
  評註:提取ip地址時有用
  匹配特定數字:
  ^[1-9]\d*$ //匹配正整數
  ^-[1-9]\d*$ //匹配負整數
  ^-?[1-9]\d*$ //匹配整數
  ^[1-9]\d*|0$ //匹配非負整數(正整數 + 0)
  ^-[1-9]\d*|0$ //匹配非正整數(負整數 + 0)
  ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ //匹配正浮點數
  ^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ //匹配負浮點數
  ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$ //匹配浮點數
  ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$ //匹配非負浮點數(正浮點數 + 0)
  ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$ //匹配非正浮點數(負浮點數 + 0)
  評註:處理大量數據時有用,具體應用時注意修正
  匹配特定字符串:
  ^[A-Za-z]+$ //匹配由26個英文字母組成的字符串
  ^[A-Z]+$ //匹配由26個英文字母的大寫組成的字符串
  ^[a-z]+$ //匹配由26個英文字母的小寫組成的字符串
  ^[A-Za-z0-9]+$ //匹配由數字和26個英文字母組成的字符串
  ^\w+$ //匹配由數字、26個英文字母或者下劃線組成的字符串

正則表達式匹配規則

  一切從最基本的開始。模式,是正規表達式最基本的元素,它們是一組描述字符串特徵的字符。模式可以很簡單,由普通的字符串組成,也可以非常複雜,往往用特殊的字符表示一個範圍內的字符、重複出現,或表示上下文。例如:
  ^once
  這個模式包含一個特殊的字符^,表示該模式只匹配那些以once開頭的字符串。例如該模式與字符串"once upon a time"匹配,與"There once was a man from NewYork"不匹配。正如如^符號表示開頭一樣,$符號用來匹配那些以給定模式結尾的字符串。
  bucket$
  這個模式與"Who kept all of this cash in a bucket"匹配,與"buckets"不匹配。字符^和$同時使用時,表示精確匹配(字符串與模式一樣)。例如:
  ^bucket$
  只匹配字符串"bucket"。如果一個模式不包括^和$,那麼它與任何包含該模式的字符串匹配。例如:模式
  once
  與字符串
  There once was a man from NewYorkWho kept all of his cash in a bucket.
  是匹配的。
  在該模式中的字母(o-n-c-e)是字面的字符,也就是說,他們表示該字母本身,數字也是一樣的。其他一些??表符等),要用到轉義序列。所有的轉義序列都用反斜槓(\)打頭。製表符的轉義序列是:\t。所以如果我們要檢測一個字符串是否以製表符開頭,可以用這個模式:
  ^\t
  類似的,用\n表示“新行”,\r表示回車。其他的特殊符號,可以用在前面加上反斜槓,如反斜槓本身用\\表示,句號.用\.表示,以此類推。
 
發佈了40 篇原創文章 · 獲贊 23 · 訪問量 18萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章