Python爬蟲學習筆記(正則表達式基礎：Re庫)

正則表達式：是一個特殊的字符序列，它能幫助你方便的檢查一個字符串是否與某種模式匹配。

re 模塊使 Python 語言擁有全部的正則表達式功能，安裝參考requests。

compile 函數根據一個模式字符串和可選的標誌參數生成一個正則表達式對象。該對象擁有一系列方法用於正則表達式匹配和替換。

1.常用操作符

操作符	說明	實例
.（小數點）	表示任何單個字符
[ ]	字符集，對單個字符給出取值範圍	[abc]表示a、b、c，[a-z]表示a到z單個字符
[ ^ ]	非字符集，對單個字符給出排除範圍	[^abc]表示非a或b或c的單個字符
*	前一個字符0次或無限次擴展	abc*表示ab、abc、abcc、abccc等
+	前一個字符1次或無限次擴展	abc+表示abc、abcc、abccc等
？	前一個字符0次或1次擴展	abc？表示ab、abc
\|	左右表達式任意一個	abc\|def 表示abc、def

｛m｝	擴展前一個字符m次	ab{2}c表示abbc
｛m，n｝	擴展前一個字符m到n次	ab{1,2}c表示abc/abbc
^	匹配字符串的開頭	^abc表示abc且在一個字符的開頭
$	匹配字符串的結尾	abc$表示abc且在一個字符的結尾
（）	分組標記，內部只能使用丨操作符	(abc)表示abc,(abc\|def)表示abc、def
\d	數字，等價於[0-9]
\w	單詞字符，等價於[A-Za-z0-9]
^ [A-Za-z]+$	表示由26個字母組合的字符串
^ [A-Za-z0-9]+$	表示由26個字母與數字組合的字符串
^ [-?\d]+$	表示整數形式的字符串
^ [0-9][0-9][0-9] $	正整數形式的字符串
[1-9]\d{5}	中國境內郵政編碼
[\u4e00-\u9fa5]	匹配中文字符串
\d{3}-\d{8]丨\d{4]-\d{7}	國內電話號碼（對"丨"的理解是關鍵）

匹配IP地址：\d+.\d+.\d+.\d+ 或 \d{1,3}.\d{1,3}.\d{1,3}.\d{1,3} 或

精確寫法：由0-99：[1-9?\d]; 100-199:1\d{2}; 200-249:2[0-4]\d; 250-255:25[0-5]知：

(([1-9?\d]|1\d{2}|2[0-4]\d|25[0-5).){3}([1-9?\d]|1\d{2}|2[0-4]\d|25[0-5))

Re庫：

主要功能函數

re.search() 在一個字符串中搜索匹配正則表達式的第一個位置，返回 match 對象

re.search(pattern,string,flags=0):原生字符串、代匹配字符串、控制標記

flag控制標記：
re.I:忽視大小寫；
re.M:作用於^,將給定字符串的每行當做匹配開始
re.S:作用於.，默認匹配所有除換行之外的所有字符

import re
match = re.search(r'[1-9]\d{5}','BIT 100081')
if match:
print(match.group(0))

re.match() 從一個字符串的開始位置起匹配正則表達式，返回 match 對象

re.match(pattern,string,flags=0)：原生字符串、待匹配字符串、控制標記

import re
match = re.match(r'[1-9]\d{5}','100081 BIT')
if match:
print(match.group(0))

re.findall() 搜索字符串，以列表類型返回全部能匹配的子串

import re
ls = re.findall(r'[1-9]\d{5}','100081 BIT')
print(ls)

re.split() 將一個字符串按照正則表達式匹配結果進行分割，返回列表類型

re.split(pattern,string,maxsplit=0,flags=0)：原生字符串、待匹配字符串、最大分割數、控制標記

import re
ls = re.split(r'[1-9]\d{5}','BIT100081 TSU100084',maxsplit=1) #只分割第一部分
print(ls)

re.finditer()搜索字符串，返回一個匹配結果的迭代類型，每個迭代元素是 match 對象

re.finditer(pattern,string,flags=0)：:原生字符串、待匹配字符串、控制標記

import re
#ls = re.split(r'[1-9]\d{5}','BIT100081 TSU100084',maxsplit=1)
for m in re.finditer(r'[1-9]\d{5}','BIT100081 TSU100084'):
if m:
print(m.group(0))

re.sub() 在一個字符串中替換所有匹配正則表達式的淄川，返回替換後的字符串

re.sub(pattern,repl，string,count=0,flags=0)：原生字符串、替換匹配字符串的字符串，待匹配字符串、匹配的最大次數、控制標記

import re
ls = re.sub(r'[1-9]\d{5}',':zipcode','BIT100081 TSU100084')
print(ls)

一次編譯多次操作：pat=re.compile(r'[1-9]\d{5}') rst =pat.def(‘BIT 100081’) #def爲需要用的功能函數

re.compile() 函數：編譯正則表達式模式，返回一個對象。可以把常用的正則表達式編譯成正則表達式對象，方便後續調用及提高效率。

regex=re.compile(pattern, flags=0)

pattern 指定編譯時的表達式字符串

flags 編譯標誌位，用來修改正則表達式的匹配方式。支持 re.L|re.M 同時匹配

regex.search() 在一個字符串中搜索匹配正則表達式的第一個位置，返回 match 對象
regex.match() 從一個字符串的開始位置起匹配正則表達式，返回 match 對象
regex.findall() 搜索字符串，以列表類型返回全部能匹配的子串
regex.split() 將一個字符串按照正則表達式匹配結果進行分割，返回列表類型
regex.finditer()搜索字符串返回一個匹配結果的迭代類型，每個迭代元素是 match 對象
regex.sub() 在一個字符串中替換所有匹配正則表達式的淄川，返回替換後的字符串

3.Re庫的Match對象的屬性

.string 待匹配的文本

.re 匹配時使用的pattern 對象（正則表達式）

.pos 正則表達式搜索文本的開始位置

.endpos 正則表達式搜索文本的結束位置

Match對象的方法

.group(0) 獲得匹配後的字符串

.start() 匹配字符串在原始字符串的開始位置

.end() 匹配字符串在原始字符串的結束位置

.span() 返回（.start(), .end())

4.Re庫的貪婪匹配（默認最長匹配）和最小匹配

貪婪匹配：re.search(r’PY.*N’,’PYANBNCNDN’)

最小匹配：re.search(r’PY.*?N’,’PYANBNCNDN’)

最小匹配操作符

操作符	說明
*？	前一個字符0次或無限次擴展，最小匹配
+？	前一個字符1次或無限次擴展，最小匹配
？？	前一個字符0次或1次擴展，最小匹配
{m,n}?	擴展前一個字符m至n次（含n），最小匹配