使用正則表達式找出不包含特定字符串的條目

原創

hyholine

2020-02-25 16:41

使用正則表達式找出不包含特定字符串的條目

本文來自Kevin Yang博客作者：Kevin Yang

概述

做日誌分析工作的經常需要跟成千上萬的日誌條目打交道，爲了在龐大的數據量中找到特定模式的數據，常常需要編寫很多複雜的正則表達式。例如枚舉出日誌文件中不包含某個特定字符串的條目，找出不以某個特定字符串打頭的條目，等等。

使用否定式前瞻

正則表達式中有前瞻（Lookahead）和後顧（Lookbehind）的概念，這兩個術語非常形象的描述了正則引擎的匹配行爲。需要注意一點，正則表達式中的前和後和我們一般理解的前後有點不同。一段文本，我們一般習慣把文本開頭的方向稱作“前面”，文本末尾方向稱爲“後面”。但是對於正則表達式引擎來說，因爲它是從文本頭部向尾部開始解析的（可以通過正則選項控制解析方向），因此對於文本尾部方向，稱爲“前”，因爲這個時候，正則引擎還沒走到那塊，而對文本頭部方向，則稱爲“後”，因爲正則引擎已經走過了那一塊地方。如下圖所示：

所謂的前瞻就是在正則表達式匹配到某個字符的時候，往“尚未解析過的文本”預先看一下，看是不是符合/不符合匹配模式，而後顧，就是在正則引擎已經匹配過的文本看看是不是符合/不符合匹配模式。符合和不符合特定匹配模式我們又稱爲肯定式匹配和否定式匹配。

現代高級正則表達式引擎一般都支持都支持前瞻，對於後顧支持並不是很廣泛，因此我們這裏採用否定式前瞻來實現我們的需求。

實現

測試數據：

2009-07-07 04:38:44 127.0.0.1 GET /robots.txt2009-07-07 04:38:44 127.0.0.1 GET /posts/robotfile.txt2009-07-08 04:38:44 127.0.0.1 GET /

例如上面這幾條簡單的日誌條目，我們想實現兩個目標：

1. 把8號的數據過濾掉

2. 把那些不包含robots.txt字符串的條目給找出來（只要Url中包含robots.txt的都給過濾掉）。

前瞻的語法是：

(?!匹配模式)

我們先來實現第一個目標——匹配不以特定字符串開頭的條目。

這裏我們因爲要排除一段連續的字符串，因此匹配模式非常簡單，就是2009-07-08。實現如下：

^(?!2009-07-08).*?$

用Expresso我們可以看到結果確實過濾掉8號的數據。

接下來，我們來實現第二個目標——排除包含特定字符串的條目。

按照我們上面寫法，我照葫蘆畫瓢了一下：

^.*?(?!robots\.txt).*?$

這段正則用大白話描述就是：開頭任意字符，然後後面不要跟着robots.txt連續字符串，然後再跟着任意個字符，字符串結尾。

運行測試，結果發現：

沒有達到我們想要的效果。這是爲什麼呢？我們給上面的正則表達式加上兩個捕獲分組調試一下：

^(.*?)(?!robots\.txt)(.*?)$

測試結果：

我們看到，第一個分組啥都沒有匹配到，而第二個分組卻匹配了整個字符串。再回過頭來好好分析一下剛纔那個正則表達式。實際上，當正則引擎解析到A區域的時候，就已經開始執行B區域的前瞻工作。這個時候發現當A區域爲Null的時候匹配成功——.*本來就允許匹配空字符，前瞻條件又滿足，A區域後面緊跟着的是“2009”字符串，而並不是robots。因此整個匹配過程成功匹配到所有條目。

分析出原因之後我們對上述的正則進行修正，將.*?移入前瞻表達式，如下：

^(?!.*?robots).*$

測試結果:

Bingo!

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

使用正則表達式找出不包含特定字符串的條目

使用正則表達式找出不包含特定字符串的條目

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

關於接口協議，你必須要知道這些！

一鍵自動化博客發佈工具,用過的人都說好(頭條篇)

01 穩定性（一）如何應對事故並做好覆盤？

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

京東面試：如何進行JVM調優？

線程池那些坑爹的參數-核心線程數&最大線程數&工作隊列

Stream流常用方法總結

處理vPhere宿主服務器磁盤空間佔用爆滿

table 列表自動滾動顯示代碼

[QTP中RO與TO3]如何訪問DOM對象和方法（描述性編程）

QTP打開文件、保存文件時提示異常出錯強制關閉程序處理辦法

使用DOS命令如何操作Windows防火牆(命令介紹及應用舉例) .

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結