小豬的Python學習之旅 —— 3.正則表達式

小豬的Python學習之旅 —— 3.正則表達式

標籤: Python


re模塊

Python中通過re模塊使用正則表達式,該模塊提供的幾個常用方法:

1.匹配

re.match(pattern, string, flags=0)

  • 參數匹配的正則表達式要匹配的字符串標誌位(匹配方法)
  • 嘗試從字符串的開頭進行匹配,匹配成功會返回一個匹配的對象,
    類型是:<class '_sre.SRE_Match'>
    group與groups

re.search(pattern, string, flags=0)

  • 參數:同上
  • 掃描整個字符串,返回第一個匹配的對象,否則返回None

注意match方法和search的最大區別:match如果開頭就不和正則表達式匹配,
直接返回None,而search則是匹配整個字符串!!

2.檢索與替換

re.findall(pattern, string, flags=0)

  • 參數:同上
  • 遍歷字符串,找到正則表達式匹配的所有位置,並以列表的形式返回

re.finditer(pattern, string, flags=0)

  • 參數:同上
  • 遍歷字符串,找到正則表達式匹配的所有位置,並以迭代器的形式返回

re.sub(pattern, repl, string, count=0, flags=0)

  • 參數:repl替換爲什麼字符串,可以是函數,把匹配到的結果做一些轉換;
    count替換的最大次數,默認0代表替換所有的匹配。
  • 找到所有匹配的子字符串,並替換爲新的內容

re.split(pattern, string, maxsplit=0, flags=0)

  • 參數:maxsplit設置分割的數量,默認0代表所有滿足匹配的都分割
  • 在正則表達式匹配的地方進行分割,並返回一個列表

3.編譯成Pattern對象

對於會多次用到的正則表達式,我們可以調用re的compile()方法編譯成
Pattern對象,調用的時候直接Pattern對象.xxx即可,從而提高運行效率。

附:flags(可選標誌位)表

多個標誌可通過按位OR(|)進行連接,比如:re.I|re.M

修飾符 描述
re.I 使匹配對大小寫不敏感
re.L 做本地化識別(locale-aware)匹配
re.M 多行匹配,影響 ^ 和 $
re.S 使 . 匹配包括換行在內的所有字符
re.U 根據Unicode字符集解析字符。這個標誌影響 \w, \W, \b, \B.
re.X 該標誌通過給予你更靈活的格式以便你將正則表達式寫得更易於理解。

2.正則規則詳解


1.加在正則字符串前的’r’

爲了告訴編譯器這個string是個raw string(原字符串),不要轉義反斜槓
比如在raw string裏\n是兩個字符,’\’和’n’,不是換行!

2.字符

字符 作用
. 匹配任意一個字符(除了\n)
[] 匹配[]中列舉的字符
[^...] 匹配不在[]中列舉的字符
\d 匹配數字,0到9
\D 匹配非數字
\s 匹配空白,就是空格和tab
\S 匹配非空白
\w 匹配字母數字或下劃線字符,a-z,A-Z,0-9,_
\W 匹配非字母數字或下劃線字符
- 匹配範圍,比如[a-f]

3.數量

字符 作用(前面三個做了優化,速度會更快,儘量優先用前三個)
* 前面的字符出現了0次或無限次,即可有可無
+ 前面的字符出現了1次或無限次,即最少一次
? 前面的字符出現了0次或者1次,要麼不出現,要麼只出現一次
{m} 前一個字符出現m次
{m,} 前一個字符至少出現m次
{m,n} 前一個字符出現m到n次

4.邊界

字符 作用
^ 字符串開頭
$ 字符串結尾
\b 單詞邊界,即單詞和空格間的位置,比如’er\b’
可以匹配”never” 中的 ‘er’,但不能匹配 “verb” 中的 ‘er’
\B 非單詞邊界,和上面的\b相反
\A 匹配字符串的開始位置
\Z 匹配字符串的結束位置

5.分組

()表示的就是要提取的分組,一般用於提取子串,
比如:^(\d{3})-(\d{3,8})$:從匹配的字符串中提取出區號和本地號碼

字符 作用
匹配左右任意一個表達式
(re) 匹配括號內的表達式,也表示一個組
(?:re) 同上,但是不表示一個組
(?P<name>) 分組起別名,group可以根據別名取出,比如(?P<first>\d)
match後的結果調m.group(‘first’)可以拿到第一個分組中匹配的記過
(?=re) 前向肯定斷言,如果當前包含的正則表達式在當前位置成功匹配,
則代表成功,否則失敗。一旦該部分正則表達式被匹配引擎嘗試過,
就不會繼續進行匹配了;剩下的模式在此斷言開始的地方繼續嘗試。
(?!re) 前向否定斷言,作用與上面的相反
(?<=re) 後向肯定斷言,作用和(?=re)相同,只是方向相反
(?<!re) 後向否定斷言,作用於(?!re)相同,只是方向想法

附:group()方法與其他方法詳解

不引入括號,增個表達式作爲一個組,是group(0)

不引入()的話,代表整個表達式作爲一個組,group = group(0)
如果引入()的話,會把表達式分爲多個分組,比如下面的例子:

輸出結果

除了group方法外還有三個常用的方法:

  • groups(): 從group(1)開始往後的所有的值,返回一個元組
  • start():返回匹配的開始位置
  • end():返回匹配的結束位置
  • span():返回一個元組組,表示匹配位置(開始,結束)

貪婪與非貪婪

正則匹配默認是貪婪匹配,也就是匹配儘可能多的字符
比如:ret = re.match(r'^(\d+)(0*)$','12345000').groups()ß
我們的原意是想得到(‘12345’,’000’)這樣的結果,但是輸出
ret我們看到的卻是:,由於貪婪,直接把後面的
0全給匹配了,結果0*只能匹配空字符串了,如果想儘可能少的
匹配,可以在\d+後加上一個?問號採用非貪婪匹配,改成:
r’^(\d+?)(0*)$’,輸出結果就變成了:


3.正則練習

例子1:簡單驗證手機號碼格式

流程分析:

  • 1.開頭可能是帶0(長途),86(天朝國際區號),17951(國際電話)中的一個或者一個也沒有:
  • 2.接着1xx,有13x,14x,15x,17x,18x,然後這個x也是取值範圍也是不一樣的:
    13x:0123456789
    14x:579
    15x:012356789
    17x:01678
    18x:0123456789
    然後修改下正則表達式,可以隨便輸個字符串驗證下:
  • 3.最後就是剩下部分的8個數字了,很簡單:[0-9]{8} 加上:
^(0|86|17951)?(13[0-9]|14[579]|15[0-35-9]|17[01678]|18[0-9])[0-9]{8}$

例子2:驗證身份證

流程分析:

身份證號碼分爲一代和二代,一代由15位號碼組成,而二代則是由18個號碼組成:
十五位:xxxxxx    yy mm dd   pp s
十八位:xxxxxx yyyy mm dd ppp s

爲了方便了解,把這兩種情況分開,先是十八位的:

  • 1.前6位地址編碼(省市縣),第一位從1開始,其他五位0-9
  • 2.第7到10(接着的兩位或者四位有):,範圍是1800到2099:
  • 3.第11到12,1-9月需要補0,10,11,12
  • 4.第13到14,首位可能是012,第二位爲0-9,還要補上10,20,30,31
  • 5.第15到17順序碼,這裏就是三個數字,對同年、同月、同日出生的人
    編定的順序號,奇數分給男的,偶數分給女的:
  • 6.第18位校驗碼,0到9或者x和X

能推算出18的,那麼推算出15的也不難了:

最後用|組合下:

^[1-9]\d{5}(18|19|20)\d{2}(0[1-9]|10|11|12)([012][1-9]|10|20|30|31)\d{3}[0-9Xx]|[1-9]\d{5}\d{2}(0[1-9]|10|11|12)([012][1-9]|10|20|30|31)\d{2}[0-9Xx]$

另外,這裏的正則匹配出的身份證不一定是合法的,判斷身份是否
合法還需要通過程序進行校驗,校驗最後的校驗碼是否正確

擴展閱讀:身份證的最後一位是怎麼算出來的?
更多可見:第二代身份證號碼編排規則

首先有個加權因子的表:(沒弄懂怎麼算出來的..)
[7, 9, 10, 5, 8, 4, 2, 1, 6, 3, 7, 9, 10, 5, 8, 4, 2]

然後位和值想乘,結果相加,最後除11求餘,比如我隨便網上找的
一串身份證:411381199312150167,我們來驗證下最後的7是對的嗎?

sum = 4*7 + 1*9 + 1*10 + 3*5 +8*8 + 1* 4 … + 6 * 2 = 282
sum % 11 = 7,所以這個是一個合法的身份證號。


例子3:驗證ip是否正確

流程分析

ip由4段組成,xxx.xxx.xxx.xxx,訪問從0到255,因爲要考慮上中間的.
所以我們把第一段和後面三段分開,然後分析下ip的結構,可能是這幾種情況:
一位數[1-9]
兩位數[1-9][0-9]
三位數(100-199):1[0-9][0-9]
三位數(200-249):2[0-4][0-9]
三位數(250-255): 25[0-5]
理清了第一段的正則怎麼寫就一清二楚了:

然後後面三段,需要在前面加上一個一個.,然後這玩意是元字符,
需要加上一個反斜槓/,讓他失去作用,後面三段的正則就是:

把兩段拼接下即可得出完整的驗證ip的正則表達式了:

^([1-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])(\.([1-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])){3}$

例子4:匹配各種亂七八糟的

  • 匹配中文[\u4e00-\u9fa5]
  • 匹配雙字節字符[^\x00-\xff]

  • 匹配數字並輸出示例

    輸出結果

  • 匹配開頭結尾示例

    輸出結果


4.正則實戰

實戰:抓一波城市編碼列表

本來想着就抓抓中國氣象局的天氣就好了,然後呢,比如深圳天氣的網頁是:
http://www.weather.com.cn/weather1dn/101280601.shtml
然後這個101280601是城市編碼,然後網上搜了下城市編碼列表,發現要麼
很多是錯的,要麼就缺失很多,或者鏈接失效,想想自己想辦法寫一個採集
的,先搞一份城市編碼的列表,不過我去哪裏找數據來源呢?中國氣象局
肯定是會有的,只是應該不會直接全部暴露出來,想想能不能通過一些間接
操作來實現。對着中國氣象局的網站瞎點,結果不負有心人,我在這裏:
http://www.weather.com.cn/forecast/
發現了這個:


點進去後:http://www.weather.com.cn/textFC/hb.shtml#
然後,我覺得這可能是入手點:

F12打開開發者工具,不出所料:

這裏有個超鏈接,難不成是北京所有的地區的列表,點擊下進去看看:
http://www.weather.com.cn/textFC/beijing.shtml

臥槽,果然是北京所有的地區,然後每個地區的名字貌似都有一個超鏈接,
F12看下指向哪裏?

到這裏就豁(huo)然開朗了,我們來捋一捋實現的流程:

  • 1.先拿到第一層的城市列表鏈接用列表存起來
  • 2.接着遍歷列表去訪問不同的城市列表鏈接,截取不同城市的城市名,城市編碼存起來

流程看上去很簡單,接着來實操一波。

先是拿城市列表url

這個很容易拿,就直接貼代碼了:

拿到需要的城市列表url:

接着隨便點開一個,比如beijing.shtml,頁面結構是這樣的:
想要的內容是這裏的超鏈接:

F12看下頁面結構,層次有點多,不過沒關係,這樣更能夠鍛鍊我們

入手點一般都是離我們想要數據最近地方下手,我看上了:conMidtab3
全局搜了一下,也就八個:

第一個直接就可以排除了:

接着其餘的七個,然後發現都他麼是一樣的…,那就直接抓到第一個吧:

輸出下:

是我們想要的內容,接着裏面的tr是我們需要內容,找一波:

輸出下:

繼續細扒,我們要的只是a這個東西:

輸出下:

重複出現了一堆詳情,很明顯是我們不想要的,我們可以在循環的時候
執行一波判斷,重複的不加入到列表中:

然後我們想拿到城市編碼和城市名稱這兩個東西:

城市的話還好,直接調用tag對象的string直接就能拿到,
而城市編碼的話,按照以前的套路,我們需要先[‘href’]拿到
再做字符串裁剪,挺繁瑣的,既然本節學習了正則,爲何不用
正則來一步到位,不難寫出這樣的正則:

匹配拿到group(1)就是我們要的城市編碼:

輸出內容:

臥槽,就是我們想要的結果,美滋滋,接着把之前拿到所有
的城市列表都跑一波,存字典裏返回,最後賽到一個大字典
裏,然後寫入到文件中,完成。


========= BUG的分割線 =========

最後把數據打印出來發現只有428條數據,後面才發現conMidtab3那裏處理有些
問題,漏掉了一些,限於篇幅,就不重新解釋了,直接貼上修正完後的代碼把…

import urllib.request
from urllib import error
from bs4 import BeautifulSoup
import os.path
import re
import operator

# 通過中國氣象局抓取到所有的城市編碼

# 中國氣象網基地址
weather_base_url = "http://www.weather.com.cn"
# 華北天氣預報url
weather_hb_url = "http://www.weather.com.cn/textFC/hb.shtml#"


# 獲得城市列表鏈接
def get_city_list_url():
    city_list_url = []
    weather_hb_resp = urllib.request.urlopen(weather_hb_url)
    weather_hb_html = weather_hb_resp.read().decode('utf-8')
    weather_hb_soup = BeautifulSoup(weather_hb_html, 'html.parser')
    weather_box = weather_hb_soup.find(attrs={'class': 'lqcontentBoxheader'})
    weather_a_list = weather_box.findAll('a')
    for i in weather_a_list:
        city_list_url.append(weather_base_url + i['href'])
    return city_list_url


# 根據傳入的城市列表url獲取對應城市編碼
def get_city_code(city_list_url):
    city_code_dict = {}  # 創建一個空字典
    city_pattern = re.compile(r'^<a.*?weather/(.*?).s.*</a>$')  # 獲取城市編碼的正則

    weather_hb_resp = urllib.request.urlopen(city_list_url)
    weather_hb_html = weather_hb_resp.read().decode('utf-8')
    weather_hb_soup = BeautifulSoup(weather_hb_html, 'html.parser')
    # 需要過濾一波無效的
    div_conMidtab = weather_hb_soup.find_all(attrs={'class': 'conMidtab', 'style': ''})

    for mid in div_conMidtab:
        tab3 = mid.find_all(attrs={'class': 'conMidtab3'})
        for tab in tab3:
            trs = tab.findAll('tr')
            for tr in trs:
                a_list = tr.findAll('a')
                for a in a_list:
                    if a.get_text() != "詳情":
                        # 正則拿到城市編碼
                        city_code = city_pattern.match(str(a)).group(1)
                        city_name = a.string
                        city_code_dict[city_code] = city_name
        return city_code_dict


# 寫入文件中
def write_to_file(city_code_list):
    try:
        with open('city_code.txt', "w+") as f:
            for city in city_code_list:
                f.write(city[0] + ":" + city[1] + "\n")
    except OSError as reason:
        print(str(reason))
    else:
        print("文件寫入完畢!")


if __name__ == '__main__':
    city_result = {}  # 創建一個空字典,用來存所有的字典
    city_list = get_city_list_url()

    # get_city_code("http://www.weather.com.cn/textFC/guangdong.shtml")

    for i in city_list:
        print("開始查詢:" + i)
        city_result.update(get_city_code(i))

    # 根據編碼從升序排列一波
    sort_list = sorted(city_result.items(), key=operator.itemgetter(0))

    # 保存到文件中
    write_to_file(sort_list)

運行結果


5.小結和幾個API

本節對Python中了正則表達式進行了一波學習,練手,發現和Java裏的正則
多了一些規則,正則在字符串匹配的時候是挺爽的,但是正則並不是全能
的,比如閏年二月份有多少天的那個問題,還需要程序另外去做判斷!
正則還需要多練手啊,限於篇幅,就沒有另外去抓各種天氣信息了,
而且不是剛需,順道提供兩個免費可用三個和能拿到天氣數據的API吧:

還有個中國氣象局提供的根據經緯度獲取天氣的:
http://e.weather.com.cn/d/town/index?lat=22.5383&lon=113.9524

人生苦短,我用Python,爬蟲真好玩!期待下節爬蟲框架scrapy學習~


來啊,Py交易啊

想加羣一起學習Py的可以加下,智障機器人小Pig,驗證信息裏包含:
PythonpythonpyPy加羣交易屁眼 中的一個關鍵詞即可通過;

驗證通過後回覆 加羣 即可獲得加羣鏈接(不要把機器人玩壞了!!!)~~~
歡迎各種像我一樣的Py初學者,Py大神加入,一起愉快地交流學♂習,van♂轉py。


發佈了306 篇原創文章 · 獲贊 1857 · 訪問量 1661萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章