這篇文章主要介紹了正則表達式匹配不包含某些字符串的技巧,詳細分解了應該怎麼做和這麼做的原因,需要的朋友可以參考下
經常我們會遇到想找出不包含某個字符串的文本,程序員最容易想到的是在正則表達式裏使用,^(hede)
來過濾 hede 字串,但這種寫法是錯誤的。我們可以這樣寫:[^hede]
,但這樣的正則表達式完全是另外一個意思,它的意思是字符串裏不能包含 'h','e','d'
三個但字符。那什麼樣的正則表達式能過濾出不包含完整“hello”字串的信息呢?
事實上,說正則表達式裏不支持逆向匹配並不是百分之百的正確。就像這個問題,我們就可以使用否定式查找來模擬出逆向匹配,從而解決我們的問題:
^((?!hede).)*$
上面這個表達式就能過濾出不包含 'hede'
字串的信息。上面也說了,這種寫法並不是正則表達式“擅長”的用法,但它是可以這樣用的。
解釋
一個字符串是由 n 個字符組成的。在每個字符之前和之後,都有一個空字符。這樣,一個由 n 個字符組成的字符串就有 n+1 個空字符串。我們來看一下ABhedeCD
這個字符串:
所有的 e
編號的位置都是空字符。表達式(?!hede).
會往前查找,看看前面是不是沒有hede
字串,如果沒有(是其它字符),那麼.
(點號)就會匹配這些其它字符。這種正則表達式的“查找”也叫做 “zero-width-assertions”(零寬度斷言),因爲它不會捕獲任何的字符,只是判斷。
在上面的例子裏,每個空字符都會檢查其前面的字符串是否不是‘hede’,如果不是,這.
(點號)就是匹配捕捉這個字符。表達式(?!hede).
只執行一次,所以,我們將這個表達式用括號包裹成組(group)
,然後用*
(星號)修飾——匹配0次或多次:
((?!hede).)*
你可以理解,正則表達式((?!hede).)*
匹配字符串ABhedeCD
的結果false
,因爲在e3位置,(?!hede)
匹配不合格,它之前有hede
字符串,也就是包含了指定的字符串。
在正則表達式裏,?!
是否定式向前查找,它幫我們解決了字符串“不包含”匹配的問題。