正則表達式

在自然語言處理任務中，會經常用到正則表達式，在數據預處理部分對數據清洗。提取到“乾淨”的數據用於後續的建模，平時都是用到正則表達式直接查詢，在這裏總結一下正則表達式的內容，方便記憶和查詢。

一、常見的正則表達式

常見的正則表達式大家可以自己找，這裏給一個地址，供大家參考。在python中，re模塊提供了正則表達式的功能。

二、python的re模塊

2.1 正則函數

2.1.1 re.match函數

函數試圖從字符串的起始部分對模式進行匹配，如果匹配成功，就返回一個匹配對象，如果匹配失敗，就返回None。

2.1.2 re.search函數

函數掃描整個字符串並返回第一個成功的匹配，如果匹配成功re.search方法返回一個匹配的對象，否則返回None。

2.1.3 re.sub函數

函數用於替換字符串中的匹配項。

re.sub(pattern, repl, string, count=0, flags=0)

repl參數可以爲替換的字符串，也可以爲一個函數。

如果repl是字符串，那麼就會去替換字符串匹配的子串，返回替換後的字符串；

如果repl是函數，定義的函數只能有一個參數（匹配的對象），並返回替換後的字符串。

count可指定替換次數，不指定時全部替換。

repl可以爲一個函數。

2.1.4 re.subn函數

和sub函數差不多，但是返回結果不同，返回一個元組“（新字符串，替換次數）

2.1.5 re.compile函數

compile 函數用於編譯正則表達式，生成一個正則表達式（ Pattern ）對象，供 match() 和 search() 這兩個函數使用。如果匹配成功則返回一個Match對象

2.1.6 findall函數

在字符串中找到正則表達式所匹配的所有子串，並返回一個列表，如果沒有找到匹配的，則返回空列表

2.1.7 re.finditer函數

在字符串中找到正則表達式所匹配的所有子串，並把它們作爲一個迭代器返回

2.1.8 re.split函數

split 方法用pattern做分隔符切分字符串，分割後返回列表。如果用'(pattern)'，那麼分隔符也會返回

2.2 re模塊調用

re模塊一共有兩種調用方式：

方法1：

直接使用上面介紹的 re.match, re.search 和 re.findall 等函數對文本進行匹配查找

方法2：

（1）使用compile 函數將正則表達式的字符串形式編譯爲一個 Pattern 對象；

（2）通過 Pattern 對象提供的一系列方法對文本進行匹配查找，獲得匹配結果（一個 Match 對象）；

（3）最後使用 Match 對象提供的屬性和方法獲得信息，根據需要進行其他的操作。

接下來重點介紹compile函數。

re.compile函數用於編譯正則表達式，生成一個Pattern對象

2.2.1 match函數

Pattern對象：match(string[, pos[, endpos]])

其中，string 是待匹配的字符串，pos 和 endpos 是可選參數，指定字符串的起始和終點位置，默認值分別是 0 和 len (字符串長度)。因此，當不指定 pos 和 endpos 時，match 方法默認匹配字符串的頭部。當匹配成功時，返回一個 Match 對象，如果沒有匹配上，則返回 None。