python之正則表達式解析

1、正則表達式的組成

正則表達式可以從非結構化的文本中提取到我們想要的內容，其本質爲模式匹配，也是體現出智能化的最初手段，現在已經廣泛應用於自動化處理信息的流程之中，從爬蟲到人工智能，無處不在，其需求也是相當的大。通俗的來講，正則表達式就像是一個篩子，篩選出你所需要的信息。比如：在爬取網頁時，篩選出我們所需要的信息。

2、使用正則表達式的步驟

導入包：import re
根據需求指定正則表達式
編譯自定義的表達式
根據其表達式進行匹配
輸出結果

3、編寫正則表達式常用的幾個函數

re.match(pattern, string, flags=0)
嘗試從字符串的起始位置匹配一個模式，如果不是起始位置匹配成功的話，match()就返回none。
re.search(pattern, string, flags=0)
掃描整個字符串並返回第一個成功的匹配，只要有一個匹配成功，就停止匹配。
re.findall(string[, pos[, endpos]])
在字符串中找到正則表達式所匹配的所有子串，並返回一個列表，如果沒有找到匹配的，則返回空列表。
string 待匹配的字符串。
pos 可選參數，指定字符串的起始位置，默認爲 0。
endpos 可選參數，指定字符串的結束位置，默認爲字符串的長度。
re.finditer(pattern, string, flags=0) 和 findall
類似，在字符串中找到正則表達式所匹配的所有子串，並把它們作爲一個迭代器返回。
re.split(pattern, string[, maxsplit=0, flags=0]) split
方法按照能夠匹配的子串將字符串分割後返回列表。
re.compile(pattern[, flags]) compile
函數用於編譯正則表達式，生成一個正則表達式（ Pattern）對象，供 match() 和 search() 這兩個函數使用。
re.sub(pattern, repl, string, count=0, flags=0) Python
的re模塊提供了re.sub用於替換字符串中的匹配項。

pattern : 正則中的模式字符串。
repl : 替換的字符串，也可爲一個函數。
string : 要被查找替換的原始字符串。
count : 模式匹配後替換的最大次數，默認 0 表示替換所有的匹配。
flags : 編譯時用的匹配模式，數字形式。
#前三個爲必選參數，後兩個爲可選參數。#

注意： 1、match 和 search 是匹配一次，findall 匹配所有。
2、re.match與re.search的區別：re.match 只匹配字符串的開始，如果字符串開始不符合正則表達式，則匹配失敗，函數返回 None，而 re.search 匹配整個字符串，直到找到一個匹配。

4、特殊符號的使用

由於正則表達式通常都包含反斜槓，所以你最好使用原始字符串來表示它們。模式元素(如 r’\t’，等價於 \t )匹配相應的特殊字符。

#常用元字符#

^	匹配字符串的開頭
$	匹配字符串的末尾
.	匹配任意字符，除了換行符，當re.DOTALL標記被指定時，則可以匹配包括換行符的任意字符
–	–
[…]	用來表示一組字符,單獨列出：[abc] 匹配 ‘a’，‘b’或’c’
[^…]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符
–	–
re*	匹配0個或多個的表達式
re+	匹配1個或多個的表達式
–	–
re?	匹配0個或1個由前面的正則表達式定義的片段，非貪婪方式
re{ n}	匹配n個前面表達式。例如，"o{2}“不能匹配"Bob"中的"o”，但是能匹配"food"中的兩個o
re{ n,}	精確匹配n個前面表達式。例如，"o{2,}“不能匹配"Bob"中的"o”，但能匹配"foooood"中的所有o。"o{1,}“等價於"o+”。"o{0,}“則等價於"o*”
re{ n, m}	匹配 n 到 m 次由前面的正則表達式定義的片段，貪婪方式
a\|b	匹配a或b
(re)	匹配括號內的表達式，也表示一個組
(?imx)	正則表達式包含三種可選標誌：i, m, 或 x 。隻影響括號中的區域
(?-imx)	正則表達式關閉 i, m, 或 x 可選標誌。隻影響括號中的區域
(?: re)	類似 (…), 但是不表示一個組
(?imx: re)	在括號中使用i, m, 或 x 可選標誌
(?-imx: re)	在括號中不使用i, m, 或 x 可選標誌
(?#…)	註釋.
(?= re)	前向肯定界定符。如果所含正則表達式，以 … 表示，在當前位置成功匹配時成功，否則失敗。但一旦所含表達式已經嘗試，匹配引擎根本沒有提高；模式的剩餘部分還要嘗試界定符的右邊
(?! re)	前向否定界定符。與肯定界定符相反；當所含表達式不能在字符串當前位置匹配時成功
(?> re)	匹配的獨立模式，省去回溯
\w	匹配數字字母下劃線
\W	匹配非數字字母下劃線
\s	匹配任意空白字符，等價於 [\t\n\r\f]。
\S	匹配任意非空字符
\d	匹配任意數字，等價於 [0-9]
\D	匹配任意非數字
\A	匹配字符串開始
\Z	匹配字符串結束，如果是存在換行，只匹配到換行前的結束字符串
\z	匹配字符串結束
\G	匹配最後匹配完成的位置
\b	匹配一個單詞邊界，也就是指單詞和空格間的位置。例如， ‘er\b’ 可以匹配"never" 中的 ‘er’，但不能匹配 “verb” 中的 ‘er’
\B	匹配非單詞邊界。‘er\B’ 能匹配 “verb” 中的 ‘er’，但不能匹配 “never” 中的 ‘er’
\n, \t, 等	匹配一個換行符。匹配一個製表符, 等
\1…\9	匹配第n個分組的內容
\10	匹配第n個分組的內容，如果它經匹配。否則指的是八進制字符碼的表達式

5、各種括號的使用

() 是爲了提取匹配的字符串。表達式中有幾個()就有幾個相應的匹配字符串。 (\s*)表示連續空格的字符串。
[]是定義匹配的字符範圍。比如 [a-zA-Z0-9] 表示相應位置的字符要匹配英文字符和數字。[\s*]表示空格或者*號。
{}一般用來表示匹配的長度，比如 \s{3} 表示匹配三個空格，\s{1,3}表示匹配一到三個空格。

(0-9) 匹配 '0-9′ 本身。 [0-9]* 匹配數字（注意後面有 *，可以爲空）[0-9]+ 匹配數字（注意後面有 +，不可以爲空）{1-9} 寫法錯誤。

[0-9]{0,9} 表示長度爲 0 到 9 的數字字符串。

6、補充

貪婪與非貪婪

python裏面的量詞默認是貪婪的（在少數語言裏也可能默認是非貪婪的），總是嘗試匹配更可能多的字符，非貪婪則相反總是匹配儘可能少的字符。
在“*” “+” “?” “{m,n}”後面加上？，是貪婪變成非貪婪

起名方式：

起名方式：(?P<名字>正則) （？P=名字）

例1：

msg = '<html><h1>abc</h1></html>'
result = re.match(r'<(?P<name1>\w+)><(?P<name2>\w+)>(.+)</(?P=name2)></(?P=name1)>', msg)
print(result)
print(result.group())

運行結果：

實例1：

import re

msg = '迪麗熱巴古力娜佟麗婭扎洋洋'
parten = re.compile('佟麗婭')
result = parten.match(msg)
print(result)

# 使用正則模塊re模塊的方法：match
s = '迪麗熱巴古力娜佟麗婭扎洋洋'
result = re.match('佟麗婭', s)  # match從頭開始匹配
print(result)

result = re.search('佟麗婭', s)
print(result)

print(result.span())  # 返回位置

print(result.group())
print(result.groups())

msg1 = 'hdkahdja2d63d8773d6jkshkj廣泛廣泛ffjsfhjk3d29173128'
result = re.search('[a-z][0-9][0-9]', msg1)  # search只要有匹配的後面就不會進行檢索，一有匹配的就停止
print(result)
print(result.group())
print(result.groups())

result = re.findall('[a-z][0-9][a-z]+', msg1)  # 匹配整個字符串
print(result)

qq = '1234567890'
result = re.match('[1-9][0-9]{4,10}$', qq)
print(result)
print((result.group()))

username = 'admin001'
result = re.search('^[a-zA-Z][0-9a-zA-Z]{5,}', username)
print(result)

運行結果：

實例2：

import re

# 起名方式：(?P<名字>正則)  （？P=名字）

msg = '<html><h1>abc</h1></html>'
result = re.match(r'<(?P<name1>\w+)><(?P<name2>\w+)>(.+)</(?P=name2)></(?P=name1)>', msg)
print(result)
print(result.group())

phone = '12345678901'
result = re.match(r'[1]\d{9}[0-35-689]$', phone)
print(result)

# 爬蟲
phone1 = '010-12345678'
result1 = re.match(r'(\d{3,4})-(\d{8}$)', phone1)
print(result1)
# 分別提取
print(result1.group())
# （）表示分組  group(1) 表示提取到第一組內容
print(result1.group(1))
print(result1.group(2))

'''
re模塊：
    match
    search
    findall
    sub(正則表達式，'新內容'，string)     替換
'''

result1 = re.sub(r'\d+', '90', 'java:99,python:100')
print(result1)

運行結果：

python之正則表達式解析

1、正則表達式的組成

2、使用正則表達式的步驟

3、編寫正則表達式常用的幾個函數

4、特殊符號的使用

5、各種括號的使用

6、補充

SQL優化-20231016

python之正則表達式解析

python模塊和包的解析

OS模塊常用函數講解

面向對象（二）之繼承

私有屬性和私有方法的解析，外部如何訪問私有屬性

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結