正則表達式30分鐘入門

前言

正則表達式（英語：Regular Expression，在代碼中常簡寫爲regex、regexp或RE），又稱正規表示式、正規表示法、正規表達式、規則表達式、常規表示法，是計算機科學的一個概念。正則表達式使用單個字符串來描述、匹配一系列匹配某個句法規則的字符串。在很多文本編輯器裏，正則表達式通常被用來檢索、替換那些匹配某個模式的文本。(來自維基百科)

入門

假設你在一篇英文小說裏查找hi，你可以使用正則表達式hi。它可以精確匹配這樣的字符串：由兩個字符組成，前一個字符是h,後一個是i。通常，處理正則表達式的工具會提供一個忽略大小寫的選項，如果選中了這個選項，它可以匹配hi,HI,Hi,hI這四種情況中的任意一種。

不幸的是，很多單詞裏包含hi這兩個連續的字符，比如him,history,high等等。用hi來查找的話，這裏邊的hi也會被找出來。如果要精確地查找hi這個單詞的話，我們應該使用。\bhi\b

假如你要找的是hi後面不遠處跟着一個Lucy，你應該用\bhi\b.*\bLucy\b

註釋

\b是正則表達式規定的一個特殊代,代表單詞的分界處。

.是另一個元字符，匹配除了換行符以外的任意字符。* 同樣是元字符，它代表的不是字符，也不是位置，而是數量——它指定* 前邊的內容可以連續重複使用任意次以使整個表達式得到匹配。\bhi\b.*\bLucy\b的意思就很明顯了：先是一個單詞hi,然後是任意個任意字符(但不能是換行)，最後是Lucy這個單詞。

0\d\d-\d\d\d\d\d\d\d\d匹配這樣的字符串：以0開頭，然後是兩個數字，然後是一個連字號“-”，最後是8個數字(也就是中國的電話號碼。當然，這個例子只能匹配區號爲3位的情形)。

這裏的\d是個新的元字符，匹配一位數字(0，或1，或2，或……)。-不是元字符，只匹配它本身——連字符(或者減號，或者中橫線，或者隨你怎麼稱呼它)。

爲了避免那麼多煩人的重複，我們也可以這樣寫這個表達式：0\d{2}-\d{8}。這裏\d後面的{2}({8})的意思是前面\d必須連續重複匹配2次(8次)。

元字符

如 \b . *，還有\d.正則表達式裏還有更多的元字符，比如\s匹配任意的空白符，包括空格，製表符(Tab)，換行符，中文全角空格等。\w匹配字母或數字或下劃線或漢字等。

下面來看看更多的例子：
\ba\w*\b 匹配以字母a開頭的單詞——先是某個單詞開始處(\b)，然後是字母a,然後是任意數量的字母或數字(\w*)，最後是單詞結束處(\b)。

好吧，現在我們說說正則表達式裏的單詞是什麼意思吧：就是不少於一個的連續的\w。不錯，這與學習英文時要背的成千上萬個同名的東西的確關係不大 😃
\d+ 匹配1個或更多連續的數字。這裏的+是和類似的元字符，不同的是匹配重複任意次(可能是0次)，而+則匹配重複1次或更多次。

\b\w{6}\b 匹配剛好6個字符的單詞。

1.常用的元字符
. 匹配除換行符以外的任意字符
\w 匹配字母或數字或下劃線或漢字
\s 匹配任意的空白符
\d 匹配數字
\b 匹配單詞的開始或結束
^ 匹配字符串的開始
$ 匹配字符串的結束

轉義字符

如果你想查找元字符本身的話，比如你查找.,或者*,就出現了問題：你沒辦法指定它們，因爲它們會被解釋成別的意思。這時你就得使用\來取消這些字符的特殊意義。因此，你應該使用.和*。當然，要查找\本身，你也得用\.

例如：deerchao.net匹配deerchao.net，C:\Windows匹配C:\Windows。

重複

你已經看過了前面的*,+,{2},{5,12}這幾個匹配重複的方式了。下面是正則表達式中所有的限定符(指定數量的代碼，例如*,{5,12}等)：

2.常用的限定符
*重複零次或更多次
+重複一次或更多次
? 重複零次或一次
{n} 重複n次
{n,} 重複n次或更多次
{n,m} 重複n到m次

字符類

要想查找數字，字母或數字，空白是很簡單的，因爲已經有了對應這些字符集合的元字符，但是如果你想匹配沒有預定義元字符的字符集合(比如元音字母a,e,i,o,u),應該怎麼辦？

很簡單，你只需要在方括號裏列出它們就行了，像[aeiou]就匹配任何一個英文元音字母，[.?!]匹配標點符號(.或?或!)。

我們也可以輕鬆地指定一個字符範圍，像[0-9]代表的含意與\d就是完全一致的：一位數字；同理[a-z0-9A-Z_]也完全等同於\w（如果只考慮英文的話）。

下面是一個更復雜的表達式：(?0\d{2}[) -]?\d{8}。

“(”和“)”也是元字符，後面的分組節裏會提到，所以在這裏需要使用轉義。
這個表達式可以匹配幾種格式的電話號碼，像(010)88886666，或022-22334455，或02912345678等。我們對它進行一些分析吧：首先是一個轉義字符(,它能出現0次或1次(?),然後是一個0，後面跟着2個數字(\d{2})，然後是)或-或空格中的一個，它出現1次或不出現(?)，最後是8個數字(\d{8})。

分支條件

不幸的是，剛纔那個表達式也能匹配010)12345678或(022-87654321這樣的“不正確”的格式。要解決這個問題，我們需要用到分枝條件。正則表達式裏的分枝條件指的是有幾種規則，如果滿足其中任意一種規則都應該當成匹配，具體方法是用|把不同的規則分隔開。聽不明白？沒關係，看例子：

0\d{2}-\d{8}|0\d{3}-\d{7}這個表達式能匹配兩種以連字號分隔的電話號碼：一種是三位區號，8位本地號(如010-12345678)，一種是4位區號，7位本地號(0376-2233445)。

(0\d{2})[- ]?\d{8}|0\d{2}[- ]?\d{8}這個表達式匹配3位區號的電話號碼，其中區號可以用小括號括起來，也可以不用，區號與本地號間可以用連字號或空格間隔，也可以沒有間隔。你可以試試用分枝條件把這個表達式擴展成也支持4位區號的。

\d{5}-\d{4}|\d{5}這個表達式用於匹配美國的郵政編碼。美國郵編的規則是5位數字，或者用連字號間隔的9位數字。之所以要給出這個例子是因爲它能說明一個問題：使用分枝條件時，要注意各個條件的順序。如果你把它改成\d{5}|\d{5}-\d{4}的話，那麼就只會匹配5位的郵編(以及9位郵編的前5位)。原因是匹配分枝條件時，將會從左到右地測試每個條件，如果滿足了某個分枝的話，就不會去再管其它的條件了。

分組

想要重複多個字符又該怎麼辦？你可以用小括號來指定子表達式(也叫做分組)，然後你就可以指定這個子表達式的重複次數了，你也可以對子表達式進行其它一些操作(後面會有介紹)。

(\d{1,3}.){3}\d{1,3}是一個簡單的IP地址匹配表達式。要理解這個表達式，請按下列順序分析它：\d{1,3}匹配1到3位的數字，(\d{1,3}.){3}匹配三位數字加上一個英文句號(這個整體也就是這個分組)重複3次，最後再加上一個一到三位的數字(\d{1,3})。

IP地址中每個數字都不能大於255. 經常有人問我, 01.02.03.04 這樣前面帶有0的數字, 是不是正確的IP地址呢? 答案是: 是的, IP 地址裏的數字可以包含有前導 0 (leading zeroes).
不幸的是，它也將匹配256.300.888.999這種不可能存在的IP地址。如果能使用算術比較的話，或許能簡單地解決這個問題，但是正則表達式中並不提供關於數學的任何功能，所以只能使用冗長的分組，選擇，字符類來描述一個正確的IP地址：((2[0-4]\d|25[0-5]|[01]?\d\d?).){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。

反義

3.常用的反義代碼

\W 匹配任意不是字母，數字，下劃線，漢字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非數字的字符
\B 匹配不是單詞開頭或結束的位置
[^x] 匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou這幾個字母以外的任意字符

貪婪與懶惰

當正則表達式中包含能接受重複的限定符時，通常的行爲是（在使整個表達式能得到匹配的前提下）匹配儘可能多的字符。以這個表達式爲例：a.*b，它將會匹配最長的以a開始，以b結束的字符串。如果用它來搜索aabab的話，它會匹配整個字符串aabab。這被稱爲貪婪匹配。

有時，我們更需要懶惰匹配，也就是匹配儘可能少的字符。前面給出的限定符都可以被轉化爲懶惰匹配模式，只要在它後面加上一個問號?。這樣.*?就意味着匹配任意數量的重複，但是在能使整個匹配成功的前提下使用最少的重複。現在看看懶惰版的例子吧：

a.*?b匹配最短的，以a開始，以b結束的字符串。如果把它應用於aabab的話，它會匹配aab（第一到第三個字符）和ab（第四到第五個字符）。

4.懶惰限定符
*? 重複任意次，但儘可能少重複
+? 重複1次或更多次，但儘可能少重複
?? 重複0次或1次，但儘可能少重複
{n,m}? 重複n到m次，但儘可能少重複
{n,}? 重複n次以上，但儘可能少重複

正則表達式30分鐘入門

前言

入門

元字符

轉義字符

重複

字符類

分支條件

分組

反義

貪婪與懶惰

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

DYLD_PRINT_STATISTICS 不生效問題

hexo 部署到GitHub上遇到問題

Hexo語言不生效問題

Hexo搭建Github靜態博客

git merge 和 git rebase命令的區別

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結