正則表達式30分鐘入門教程(用心看,包學會)

正則表達式30分鐘入門教程

版本:v2.33 (2013-1-10) 作者:deerchao轉載請註明來源

目錄

跳過目錄

  1. 本文目標
  2. 如何使用本教程
  3. 正則表達式到底是什麼東西?
  4. 入門
  5. 測試正則表達式
  6. 元字符
  7. 字符轉義
  8. 重複
  9. 字符類
  10. 分枝條件
  11. 反義
  12. 分組
  13. 後向引用
  14. 零寬斷言
  15. 負向零寬斷言
  16. 註釋
  17. 貪婪與懶惰
  18. 處理選項
  19. 平衡組/遞歸匹配
  20. 還有些什麼東西沒提到
  21. 聯繫作者
  22. 網上的資源及本文參考文獻
  23. 更新紀錄

本文目標

30分鐘內讓你明白正則表達式是什麼,並對它有一些基本的瞭解,讓你可以在自己的程序或網頁裏使用它。

如何使用本教程

最重要的是——請給我30分鐘,如果你沒有使用正則表達式的經驗,請不要試圖在30內入門——除非你是超人 :)

別被下面那些複雜的表達式嚇倒,只要跟着我一步一步來,你會發現正則表達式其實並沒有想像中的那麼困難。當然,如果你看完了這篇教程之後,發現自己明白了很多,卻又幾乎什麼都記不得,那也是很正常的——我認爲,沒接觸過正則表達式的人在看完這篇教程後,能把提到過的語法記住80%以上的可能性爲零。這裏只是讓你明白基本的原理,以後你還需要多練習,多使用,才能熟練掌握正則表達式。

除了作爲入門教程之外,本文還試圖成爲可以在日常工作中使用的正則表達式語法參考手冊。就作者本人的經歷來說,這個目標還是完成得不錯的——你看,我自己也沒能把所有的東西記下來,不是嗎?

清除格式 文本格式約定:專業術語 元字符/語法格式 正則表達式 正則表達式中的一部分(用於分析) 對其進行匹配的源字符串 對正則表達式或其中一部分的說明

隱藏邊注 本文右邊有一些註釋,主要是用來提供一些相關信息,或者給沒有程序員背景的讀者解釋一些基本概念,通常可以忽略。

正則表達式到底是什麼東西?

字符是計算機軟件處理文字時最基本的單位,可能是字母,數字,標點符號,空格,換行符,漢字等等。字符串是0個或更多個字符的序列。文本也就是文字,字符串。說某個字符串匹配某個正則表達式,通常是指這個字符串裏有一部分(或幾部分分別)能滿足表達式給出的條件。

在編寫處理字符串的程序或網頁時,經常會有查找符合某些複雜規則的字符串的需要。正則表達式就是用於描述這些規則的工具。換句話說,正則表達式就是記錄文本規則的代碼。

很可能你使用過Windows/Dos下用於文件查找的通配符(wildcard),也就是*?。如果你想查找某個目錄下的所有的Word文檔的話,你會搜索*.doc。在這裏,*會被解釋成任意的字符串。和通配符類似,正則表達式也是用來進行文本匹配的工具,只不過比起通配符,它能更精確地描述你的需求——當然,代價就是更復雜——比如你可以編寫一個正則表達式,用來查找所有以0開頭,後面跟着2-3個數字,然後是一個連字號“-”,最後是7或8位數字的字符串(像010-123456780376-7654321)。

入門

學習正則表達式的最好方法是從例子開始,理解例子之後再自己對例子進行修改,實驗。下面給出了不少簡單的例子,並對它們作了詳細的說明。

假設你在一篇英文小說裏查找hi,你可以使用正則表達式hi

這幾乎是最簡單的正則表達式了,它可以精確匹配這樣的字符串:由兩個字符組成,前一個字符是h,後一個是i。通常,處理正則表達式的工具會提供一個忽略大小寫的選項,如果選中了這個選項,它可以匹配hi,HI,Hi,hI這四種情況中的任意一種。

不幸的是,很多單詞裏包含hi這兩個連續的字符,比如him,history,high等等。用hi來查找的話,這裏邊的hi也會被找出來。如果要精確地查找hi這個單詞的話,我們應該使用\bhi\b

\b是正則表達式規定的一個特殊代碼(好吧,某些人叫它元字符,metacharacter),代表着單詞的開頭或結尾,也就是單詞的分界處。雖然通常英文的單詞是由空格,標點符號或者換行來分隔的,但是\b並不匹配這些單詞分隔字符中的任何一個,它只匹配一個位置

如果需要更精確的說法,\b匹配這樣的位置:它的前一個字符和後一個字符不全是(一個是,一個不是或不存在)\w

假如你要找的是hi後面不遠處跟着一個Lucy,你應該用\bhi\b.*\bLucy\b

這裏,.是另一個元字符,匹配除了換行符以外的任意字符*同樣是元字符,不過它代表的不是字符,也不是位置,而是數量——它指定*前邊的內容可以連續重複使用任意次以使整個表達式得到匹配。因此,.*連在一起就意味着任意數量的不包含換行的字符。現在\bhi\b.*\bLucy\b的意思就很明顯了:先是一個單詞hi,然後是任意個任意字符(但不能是換行),最後是Lucy這個單詞

換行符就是'\n',ASCII編碼爲10(十六進制0x0A)的字符。

如果同時使用其它元字符,我們就能構造出功能更強大的正則表達式。比如下面這個例子:

0\d\d-\d\d\d\d\d\d\d\d匹配這樣的字符串:以0開頭,然後是兩個數字,然後是一個連字號“-”,最後是8個數字(也就是中國的電話號碼。當然,這個例子只能匹配區號爲3位的情形)。

這裏的\d是個新的元字符,匹配一位數字(0,或1,或2,或……)-不是元字符,只匹配它本身——連字符(或者減號,或者中橫線,或者隨你怎麼稱呼它)。

爲了避免那麼多煩人的重複,我們也可以這樣寫這個表達式:0\d{2}-\d{8}。這裏\d後面的{2}({8})的意思是前面\d必須連續重複匹配2次(8次)

測試正則表達式

如果你不覺得正則表達式很難讀寫的話,要麼你是一個天才,要麼,你不是地球人。正則表達式的語法很令人頭疼,即使對經常使用它的人來說也是如此。由於難於讀寫,容易出錯,所以找一種工具對正則表達式進行測試是很有必要的。

不同的環境下正則表達式的一些細節是不相同的,本教程介紹的是微軟 .Net Framework 4.0 下正則表達式的行爲,所以,我向你推薦我編寫的.Net下的工具 正則表達式測試器。請參考該頁面的說明來安裝和運行該軟件。

下面是Regex Tester運行時的截圖:

正則表達式測試器運行截圖

元字符

現在你已經知道幾個很有用的元字符了,如\b,.,*,還有\d.正則表達式裏還有更多的元字符,比如\s匹配任意的空白符,包括空格,製表符(Tab),換行符,中文全角空格等\w匹配字母或數字或下劃線或漢字等

對中文/漢字的特殊處理是由.Net提供的正則表達式引擎支持的,其它環境下的具體情況請查看相關文檔。

下面來看看更多的例子:

\ba\w*\b匹配以字母a開頭的單詞——先是某個單詞開始處(\b),然後是字母a,然後是任意數量的字母或數字(\w*),最後是單詞結束處(\b)

好吧,現在我們說說正則表達式裏的單詞是什麼意思吧:就是不少於一個的連續的\w。不錯,這與學習英文時要背的成千上萬個同名的東西的確關係不大 :)

\d+匹配1個或更多連續的數字。這裏的+是和*類似的元字符,不同的是*匹配重複任意次(可能是0次),而+則匹配重複1次或更多次

\b\w{6}\b 匹配剛好6個字符的單詞

表1.常用的元字符
代碼 說明
. 匹配除換行符以外的任意字符
\w 匹配字母或數字或下劃線或漢字
\s 匹配任意的空白符
\d 匹配數字
\b 匹配單詞的開始或結束
^ 匹配字符串的開始
$ 匹配字符串的結束

正則表達式引擎通常會提供一個“測試指定的字符串是否匹配一個正則表達式”的方法,如JavaScript裏的RegExp.test()方法或.NET裏的Regex.IsMatch()方法。這裏的匹配是指是字符串裏有沒有符合表達式規則的部分。如果不使用^$的話,對於\d{5,12}而言,使用這樣的方法就只能保證字符串裏包含5到12連續位數字,而不是整個字符串就是5到12位數字。

元字符^(和數字6在同一個鍵位上的符號)和$都匹配一個位置,這和\b有點類似。^匹配你要用來查找的字符串的開頭,$匹配結尾。這兩個代碼在驗證輸入的內容時非常有用,比如一個網站如果要求你填寫的QQ號必須爲5位到12位數字時,可以使用:^\d{5,12}$

這裏的{5,12}和前面介紹過的{2}是類似的,只不過{2}匹配只能不多不少重複2次{5,12}則是重複的次數不能少於5次,不能多於12次,否則都不匹配。

因爲使用了^$,所以輸入的整個字符串都要用來和\d{5,12}來匹配,也就是說整個輸入必須是5到12個數字,因此如果輸入的QQ號能匹配這個正則表達式的話,那就符合要求了。

和忽略大小寫的選項類似,有些正則表達式處理工具還有一個處理多行的選項。如果選中了這個選項,^$的意義就變成了匹配行的開始處和結束處

字符轉義

如果你想查找元字符本身的話,比如你查找.,或者*,就出現了問題:你沒辦法指定它們,因爲它們會被解釋成別的意思。這時你就得使用\來取消這些字符的特殊意義。因此,你應該使用\.\*。當然,要查找\本身,你也得用\\.

例如:deerchao\.net匹配deerchao.netC:\\Windows匹配C:\Windows

重複

發佈了37 篇原創文章 · 獲贊 9 · 訪問量 11萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章