在我們使用爬蟲進行大型網站數據的爬取時我們肯定會用到數據解析,正則表達式是數據解析方法的一種。
正則表達式模式 | 描述 |
---|---|
^ | 匹配字符串的開頭 |
$ | 匹配字符串的末尾。 |
. | 匹配任意字符,除了換行符,當re.DOTALL標記被指定時,則可以匹配包括換行符的任意字符。 |
[…] | 用來表示一組字符,單獨列出:[amk] 匹配 ‘a’,‘m’或’k’ |
[^…] | 不在[]中的字符:[^abc] 匹配除了a,b,c之外的字符。 |
re* | 匹配0個或多個的表達式。 |
re+ | 匹配1個或多個的表達式。 |
re? | 匹配0個或1個由前面的正則表達式定義的片段,非貪婪方式 |
re{ n} | 精確匹配 n 個前面表達式。例如, o{2} 不能匹配 “Bob” 中的 “o”,但是能匹配 “food” 中的兩個 o。 |
re{ n,} | 匹配 n 個前面表達式。例如, o{2,} 不能匹配"Bob"中的"o",但能匹配 "foooood"中的所有 o。“o{1,}” 等價於 “o+”。“o{0,}” 則等價於 “o*”。 |
re{ n, m} | 匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式 (貪婪模式是儘可能多地匹配所搜索的字符串) |
a | b |
(re) | 對正則表達式分組並記住匹配的文本 |
(?imx) | 正則表達式包含三種可選標誌:i, m, 或 x 。隻影響括號中的區域。 |
(?-imx) | 正則表達式關閉 i, m, 或 x 可選標誌。隻影響括號中的區域。 |
(?: re) | 類似 (…), 但是不表示一個組 |
(?imx: re) | 在括號中使用i, m, 或 x 可選標誌 |
(?-imx: re) | 在括號中不使用i, m, 或 x 可選標誌 |
(?#…) | 註釋. |
(?= re) | 前向肯定界定符。如果所含正則表達式,以 … 表示,在當前位置成功匹配時成功,否則失敗。但一旦所含表達式已經嘗試,匹配引擎根本沒有提高;模式的剩餘部分還要嘗試界定符的右邊。 |
(?! re) | 前向否定界定符。與肯定界定符相反;當所含表達式不能在字符串當前位置匹配時成功 |
(?> re) | 匹配的獨立模式,省去回溯。 |
\w | 匹配字母數字及下劃線 |
\W | 匹配非字母數字及下劃線 |
\s | 匹配任意空白字符,等價於 [\t\n\r\f]. |
\S | 匹配任意非空字符 |
\d | 匹配任意數字,等價於 [0-9]. |
\D | 匹配任意非數字 |
\A | 匹配字符串開始 |
\Z | 匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串。 |
\z | 匹配字符串結束 |
\G | 匹配最後匹配完成的位置。 |
\b | 匹配一個單詞邊界,也就是指單詞和空格間的位置。例如, ‘er\b’ 可以匹配"never" 中的 ‘er’,但不能匹配 “verb” 中的 ‘er’。 |
\B | 匹配非單詞邊界。‘er\B’ 能匹配 “verb” 中的 ‘er’,但不能匹配 “never” 中的 ‘er’。 |
\n, \t, 等. | 匹配一個換行符。匹配一個製表符。等 |
\1…\9 | 匹配第n個分組的內容。 |
\10 | 匹配第n個分組的內容,如果它經匹配。否則指的是八進制字符碼的表達式。 |
re.compile 函數
編譯正則表達式模式,返回一個對象的模式。(可以把那些常用的正則表達式編譯成正則表達式對象,這樣可以提高一點效率。)
re.compile(pattern[, flags])
- pattern : 一個字符串形式的正則表達式
- flags : 可選,表示匹配模式,比如忽略大小寫,多行模式等,具體參數爲:
1.re.I 忽略大小寫
2.re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依賴於當前環境
3.re.M 多行模式
4.re.S 即爲 . 並且包括換行符在內的任意字符(. 不包括換行符)
5.re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依賴於 Unicode 字符屬性數據庫
6.re.X 爲了增加可讀性,忽略空格和 # 後面的註釋
import re
tt = "Tina is a good girl, she is cool, clever, and so on..."
rr = re.compile(r'\w*oo\w*')
print(rr.findall(tt)) #查找所有包含'oo'的單詞
執行結果如下:
['good', 'cool']
re.match函數
re.match 嘗試從字符串的起始位置匹配一個模式,如果不是起始位置匹配成功的話,match()就返回none。
函數語法:
re.match(pattern, string, flags=0)
參數說明:
參數 | 說明 |
---|---|
pattern | 匹配的正則表達式 |
string | 要匹配的字符串。 |
flags | 標誌位,用於控制正則表達式的匹配方式,如:是否區分大小寫,多行匹配等等。 |
實例:
#!/usr/bin/python
# -*- coding: UTF-8 -*
import re
print(re.match('www', 'www.runoob.com').span()) # 在起始位置匹配
print(re.match('com', 'www.runoob.com')) # 不在起始位置匹配
運行結果:
(0, 3)
None
我們可以使用group(num) 或 groups() 匹配對象函數來獲取匹配表達式。
匹配對象方法 | 描述 |
---|---|
group(num=0) | 匹配的整個表達式的字符串,group() 可以一次輸入多個組號,在這種情況下它將返回一個包含那些組所對應值的元組。 |
groups() | 返回一個包含所有小組字符串的元組,從 1 到 所含的小組號。 |
實例:
print(re.match('com','comwww.runcomoob').group())
print(re.match('com','Comwww.runcomoob',re.I).group())
執行結果:
com
com
re.search方法
re.search 掃描整個字符串並返回第一個成功的匹配。
函數語法:
re.search(pattern, string, flags=0)
參數說明:
參數 | 說明 |
---|---|
pattern | 匹配的正則表達式 |
string | 要匹配的字符串。 |
flags | 標誌位,用於控制正則表達式的匹配方式,如:是否區分大小寫,多行匹配等等。 |
實例:
import re
print(re.search('www', 'www.runoob.com').span()) # 在起始位置匹配
print(re.search('com', 'www.runoob.com').span()) # 不在起始位置匹配
運行結果:
(0, 3)
(11, 14)
我們可以使用group(num) 或 groups() 匹配對象函數來獲取匹配表達式。
匹配對象方法 | 描述 |
---|---|
group(num=0) | 匹配的整個表達式的字符串,group() 可以一次輸入多個組號,在這種情況下它將返回一個包含那些組所對應值的元組。 |
groups() | 返回一個包含所有小組字符串的元組,從 1 到 所含的小組號。 |
實例:
print(re.search('\dcom','www.4comrunoob.5com').group())
執行結果如下:
4com
注意:
match和search一旦匹配成功,就是一個match object對象,而match object對象有以下方法:
- group() 返回被 RE 匹配的字符串
- start() 返回匹配開始的位置
- end() 返回匹配結束的位置
- span() 返回一個元組包含匹配 (開始,結束) 的位置
- group() 返回re整體匹配的字符串,可以一次輸入多個組號,對應組號匹配的字符串。
a group()返回re整體匹配的字符串,
b group (n,m) 返回組號爲n,m所匹配的字符串,如果組號不存在,則返回indexError異常
c groups()groups() 方法返回一個包含正則表達式中所有小組字符串的元組,從 1 到所含的小組號,通常groups()不需要參數,返回一個元組,元組中的元就是正則表達式中定義的組。
findall函數:
在字符串中找到正則表達式所匹配的所有子串,並返回一個列表,如果沒有找到匹配的,則返回空列表。
注意: match 和 search 是匹配一次 findall 匹配所有。
語法格式爲:
findall(string[, pos[, endpos]])
參數:
- string : 待匹配的字符串。
- pos : 可選參數,指定字符串的起始位置,默認爲 0。
- endpos : 可選參數,指定字符串的結束位置,默認爲字符串的長度。
實例:
import re
pattern = re.compile(r'\d+') # 查找數字
result1 = pattern.findall('runoob 123 google 456')
result2 = pattern.findall('run88oob123google456', 0, 10)
print(result1)
print(result2)
運行結果:
['123', '456']
['88', '12']
re.finditer函數
搜索string,返回一個順序訪問每一個匹配結果(Match對象)的迭代器。找到 RE 匹配的所有子串,並把它們作爲一個迭代器返回。
格式:
re.finditer(pattern, string, flags=0)
參數說明:
參數 | 說明 |
---|---|
pattern | 匹配的正則表達式 |
string | 要匹配的字符串。 |
flags | 標誌位,用於控制正則表達式的匹配方式,如:是否區分大小寫,多行匹配等等。 |
實例:
iter = re.finditer(r'\d+','12 drumm44ers drumming, 11 ... 10 ...')
for i in iter:
print(i)
print(i.group())
print(i.span())
執行結果如下:
<_sre.SRE_Match object; span=(0, 2), match='12'>
(0, 2)
<_sre.SRE_Match object; span=(8, 10), match='44'>
(8, 10)
<_sre.SRE_Match object; span=(24, 26), match='11'>
(24, 26)
<_sre.SRE_Match object; span=(31, 33), match='10'>
(31, 33)
re.split函數
split 方法按照能夠匹配的子串將字符串分割後返回列表,它的使用形式如下:
re.split(pattern, string[, maxsplit=0, flags=0])
參數:
參數 | 描述 |
---|---|
pattern | 匹配的正則表達式 |
string | 要匹配的字符串。 |
maxsplit | 分隔次數,maxsplit=1 分隔一次,默認爲 0,不限制次數。 |
flags | 標誌位,用於控制正則表達式的匹配方式,如:是否區分大小寫,多行匹配等等。 |
實例:
print(re.split('\d+','one1two2three3four4five5'))
執行結果如下:
['one', 'two', 'three', 'four', 'five', '']
檢索和替換
Python 的 re 模塊提供了re.sub用於替換字符串中的匹配項。
語法:
re.sub(pattern, repl, string, count=0, flags=0)
參數:
- pattern : 正則中的模式字符串。
- repl : 替換的字符串,也可爲一個函數。
- string : 要被查找替換的原始字符串。
- count : 模式匹配後替換的最大次數,默認 0 表示替換所有的匹配。
import re
phone = "2004-959-559 # 這是一個國外電話號碼"
# 刪除字符串中的 Python註釋
num = re.sub(r'#.*$', "", phone)
print "電話號碼是: ", num
# 刪除非數字(-)的字符串
num = re.sub(r'\D', "", phone)
print "電話號碼是 : ", num
運行結果:
電話號碼是: 2004-959-559
電話號碼是 : 2004959559