3-正則表達式

【Python3網絡爬蟲】3-正則表達式

re.match函數

re.match 嘗試從字符串的起始位置匹配一個模式，如果不是起始位置匹配成功的話，match()就返回none。

函數語法：

re.match(pattern, string, flags=0)

函數參數說明：

參數	描述
pattern	匹配的正則表達式
string	要匹配的字符串。
flags	標誌位，用於控制正則表達式的匹配方式，如：是否區分大小寫，多行匹配等等。

匹配成功re.match方法返回一個匹配的對象，否則返回None。

我們可以使用group(num) 或 groups() 匹配對象函數來獲取匹配表達式。

匹配對象方法	描述
group(num=0)	匹配的整個表達式的字符串，group() 可以一次輸入多個組號，在這種情況下它將返回一個包含那些組所對應值的元組。
groups()	返回一個包含所有小組字符串的元組，從 1 到所含的小組號。

匹配成功re.search方法返回一個匹配的對象，否則返回None。

我們可以使用group(num) 或 groups() 匹配對象函數來獲取匹配表達式。

匹配對象方法	描述
group(num=0)	匹配的整個表達式的字符串，group() 可以一次輸入多個組號，在這種情況下它將返回一個包含那些組所對應值的元組。
groups()	返回一個包含所有小組字符串的元組，從 1 到所含的小組號。

re.search方法

re.search 掃描整個字符串並返回第一個成功的匹配。

函數語法：

re.search(pattern, string, flags=0)

函數參數說明：

參數	描述
pattern	匹配的正則表達式
string	要匹配的字符串。
flags	標誌位，用於控制正則表達式的匹配方式，如：是否區分大小寫，多行匹配等等。

匹配成功re.search方法返回一個匹配的對象，否則返回None。

我們可以使用group(num) 或 groups() 匹配對象函數來獲取匹配表達式。

匹配對象方法	描述
group(num=0)	匹配的整個表達式的字符串，group() 可以一次輸入多個組號，在這種情況下它將返回一個包含那些組所對應值的元組。
groups()	返回一個包含所有小組字符串的元組，從 1 到所含的小組號。

re.match與re.search的區別

re.match只匹配字符串的開始，如果字符串開始不符合正則表達式，則匹配失敗，函數返回None；而re.search匹配整個字符串，直到找到一個匹配。

檢索和替換

Python 的 re 模塊提供了re.sub用於替換字符串中的匹配項。

語法：

re.sub(pattern, repl, string, count=0, flags=0)

參數：

pattern : 正則中的模式字符串。
repl : 替換的字符串，也可爲一個函數。
string : 要被查找替換的原始字符串。
count : 模式匹配後替換的最大次數，默認 0 表示替換所有的匹配。

re.compile 函數

compile 函數用於編譯正則表達式，生成一個正則表達式（ Pattern ）對象，供 match() 和 search() 這兩個函數使用。

語法格式爲：

re.compile(pattern[, flags])

參數：

pattern : 一個字符串形式的正則表達式
flags : 可選，表示匹配模式，比如忽略大小寫，多行模式等，具體參數爲：
1. re.I 忽略大小寫
2. re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依賴於當前環境
3. re.M 多行模式
4. re.S 即爲 . 並且包括換行符在內的任意字符（. 不包括換行符）
5. re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依賴於 Unicode 字符屬性數據庫
6. re.X 爲了增加可讀性，忽略空格和 # 後面的註釋

findall

在字符串中找到正則表達式所匹配的所有子串，並返回一個列表，如果沒有找到匹配的，則返回空列表。

注意： match 和 search 是匹配一次 findall 匹配所有。

語法格式爲：

findall(string[, pos[, endpos]])

參數：

string : 待匹配的字符串。
pos : 可選參數，指定字符串的起始位置，默認爲 0。
endpos : 可選參數，指定字符串的結束位置，默認爲字符串的長度。

re.finditer

和 findall 類似，在字符串中找到正則表達式所匹配的所有子串，並把它們作爲一個迭代器返回。

re.finditer(pattern, string, flags=0)

參數：

參數	描述
pattern	匹配的正則表達式
string	要匹配的字符串。
flags	標誌位，用於控制正則表達式的匹配方式，如：是否區分大小寫，多行匹配等等

re.split

split 方法按照能夠匹配的子串將字符串分割後返回列表，它的使用形式如下：

re.split(pattern, string[, maxsplit=0, flags=0])

參數：

參數	描述
pattern	匹配的正則表達式
string	要匹配的字符串。
maxsplit	分隔次數，maxsplit=1 分隔一次，默認爲 0，不限制次數。
flags	標誌位，用於控制正則表達式的匹配方式，如：是否區分大小寫，多行匹配等等。

規則

模式	描述
^	匹配字符串的開頭
$	匹配字符串的末尾。
.	匹配任意字符，除了換行符，當re.DOTALL標記被指定時，則可以匹配包括換行符的任意字符。
[…]	用來表示一組字符,單獨列出：[amk] 匹配 ‘a’，‘m’或’k’
[^…]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
re*	匹配0個或多個的表達式。
re+	匹配1個或多個的表達式。
re?	匹配0個或1個由前面的正則表達式定義的片段，非貪婪方式
re{ n}	精確匹配 n 個前面表達式。例如， o{2} 不能匹配 “Bob” 中的 “o”，但是能匹配 “food” 中的兩個 o。
re{ n,}	匹配 n 個前面表達式。例如， o{2,} 不能匹配"Bob"中的"o"，但能匹配 "foooood"中的所有 o。“o{1,}” 等價於 “o+”。“o{0,}” 則等價於 “o*”。
re{ n, m}	匹配 n 到 m 次由前面的正則表達式定義的片段，貪婪方式
a\| b	匹配a或b
(re)	對正則表達式分組並記住匹配的文本
(?imx)	正則表達式包含三種可選標誌：i, m, 或 x 。隻影響括號中的區域。
(?-imx)	正則表達式關閉 i, m, 或 x 可選標誌。隻影響括號中的區域。
(?: re)	類似 (…), 但是不表示一個組
(?imx: re)	在括號中使用i, m, 或 x 可選標誌
(?-imx: re)	在括號中不使用i, m, 或 x 可選標誌
(?#…)	註釋.
(?= re)	前向肯定界定符。如果所含正則表達式，以 … 表示，在當前位置成功匹配時成功，否則失敗。但一旦所含表達式已經嘗試，匹配引擎根本沒有提高；模式的剩餘部分還要嘗試界定符的右邊。
(?! re)	前向否定界定符。與肯定界定符相反；當所含表達式不能在字符串當前位置匹配時成功
(?> re)	匹配的獨立模式，省去回溯。
\w	匹配字母數字及下劃線
\W	匹配非字母數字及下劃線
\s	匹配任意空白字符，等價於 [\t\n\r\f].
\S	匹配任意非空字符
\d	匹配任意數字，等價於 [0-9].
\D	匹配任意非數字
\A	匹配字符串開始
\Z	匹配字符串結束，如果是存在換行，只匹配到換行前的結束字符串。
\z	匹配字符串結束
\G	匹配最後匹配完成的位置。
\b	匹配一個單詞邊界，也就是指單詞和空格間的位置。例如， ‘er\b’ 可以匹配"never" 中的 ‘er’，但不能匹配 “verb” 中的 ‘er’。
\B	匹配非單詞邊界。‘er\B’ 能匹配 “verb” 中的 ‘er’，但不能匹配 “never” 中的 ‘er’。
\n, \t, 等.	匹配一個換行符。匹配一個製表符。等
\1…\9	匹配第n個分組的內容。
\10	匹配第n個分組的內容，如果它經匹配。否則指的是八進制字符碼的表達式。

【Python3網絡爬蟲】3-正則表達式

re.match函數

re.search方法

re.match與re.search的區別

檢索和替換

re.compile 函數

findall

re.finditer

re.split

規則

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

cs01 CSS Syntax

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

[MASM拾遺]Offset僞指令

h30 HTML Layout Elements

瞭解顯卡

一款基於C#開發的通訊調試工具（支持Modbus RTU、MQTT調試）

Linux/Golang/glibC系統調用

cs04 CSS Measurement Units

HDFS(hadoop分佈式文件系統)

1-urllib庫的使用

4-正則運用之爬取糗事百科

5-BeautifulSoup的使用

2-Requests庫的使用

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結