Python爬蟲(正則化模塊re)

正則表達式

序言

 讓大家久等了,萌萌小編又帶來乾貨給大家了,大家準備雙手接住了!這一次,我要介紹python中的re模塊,還要隆重介紹正則表達式怎麼在爬蟲中使用,最後介紹一個爬蟲小實戰,具體是什麼實戰,請大家往下翻閱吧。

基礎部分

 世界上的信息非常多,而我們關注的信息有限。假如我們希望只提取關注的數據,此時可以通過一些表達式進行提取,正則表達式就是其中一種進行數據篩選的表達式。當然正則表達式也有缺點,正則表達式只適合匹配文本字面,不適合匹配文本意義:像匹配url,email這種純文本的字符就很好,但比如匹配多少範圍到多少範圍的數字,如果你這個範圍很複雜的話用正則就很麻煩。或者匹配html,這個是很多人經常遇到的,寫一個複雜匹配html的正則很麻煩,不如使用針對特定意義的處理器來處理(比如寫語法分析器,dom分析器等);但是,使用正則表達式還是有好處的,比如說方便。

原子

 原子是正則表達式中最基本的組成單位,每個正則表達式中至少要包含一個原子
 原子類型:所有打印字符(a-z,A-Z,0-9,-,*,&@!()等)和非打印字符(換行、Tab鍵等)都可以作爲原子;還有通用字符作爲原和原子表。

import re  #首先要導入re包
# 普通字符作爲原子
string = 'feng yun xiong ba tian xia'
pat = 'yun'
rst = re.search(pat,string)
print(rst)  #使用re.search()函數尋找rst位於字符串的位置
# # #
pat1 = 'shuang'
rst1 = re.search(pat1,string)
print(rst1)  #使用re.search()函數尋找pat1位於字符串的位置

<re.Match object; span=(5, 8), match=‘yun’>
None

# 非打印字符作爲原子
# 最常見的有:\n換行符,\t 製表符(就是我們的tab)
string = '''feng yun
xiong ba tian xia'''     # 三引號可以註釋,同時也表示換行的字符串
pat = '\n'
rst = re.search(pat,string)   # 使用re.search()函數尋找\n位於字符串的位置
print(rst)

<re.Match object; span=(8, 9), match=’\n’>

# 通用字符作爲原子
'''
\w 匹配任意一個字母、數字或下劃線
\W 除字母、數字或下劃線以外的任意一個字符
\d 匹配十進制數
\D 除十進制數以外的任意一個字符
\s 匹配任意一個空白字符
\S 除空白字符以外的任意一個字符
'''
string = 'feng yun xiong ba tian xia di 2 bu di 13 ji'
pat = '\w\w\s\d' #找到一個前兩個爲字母或數字第三位爲空格第四位爲數字的字符串
rst = re.search(pat,string)  
print(rst)

<re.Match object; span=(27, 31), match=‘di 2’>

# 原子表[]
string = 'feng yun xiong ba tian xia di 2 bu di 13 ji'
pat = 'y[vuw]n'  #自定義原子表
rst = re.search(pat,string)
print(rst)
# #
pat1 = '[yun]'   #自定義原子表
rst1 = re.search(pat1,string)
print(rst1)
# #
pat2 = '[^yun]'  #自定義原子表
rst2 = re.search(pat2,string)
print(rst2)

<re.Match object; span=(5, 8), match=‘yun’>
<re.Match object; span=(2, 3), match=‘n’>
<re.Match object; span=(0, 1), match=‘f’>

轉義字符在正則中使用:
1.可以將有意義的字符轉義成沒有意義的(將有意義的變成原子),例如’.’;
2.可以將沒有意義的字符轉義成有意義的,例如n、t等;
3.所有沒有意義的字符加上轉義也沒有意義的,都是可以自由選擇加不加轉義字符。例如:數字或$等;
正則表達式的基本符號:

轉義字符 意義
\n 換行符
\t 製表符
\ 普通的反斜槓
\’ 單引號
\’’ 雙引號
\ d 數字

元字符

常用的元字符

  • . 點,匹配除換行符以外的任意一個字符,如果用了後面講的模式修正符,換行符它也可以匹配
  • ^ 如果該符號不在我們的原子表裏面,它表示匹配字符串開始的位置;在原子表裏表示非
  • $ 匹配結束位置
  • * 代表的是前面的這個原子出現0次、一次或多次
  • ?代表的是前面的這個原子出現0次或1次 (yes/no)
  • +代表的是前面的這個原子出現1次或多次
  • $匹配字符串結尾
  • {n} 代表的是前面的這個原子恰好出現n次,用的時候n會用數字代替
  • {n,} 代表的是前面的這個原子至少出現n次
  • {n,m} 代表的是前面的這個原子至少出現n次,至多出現m次
  • | 豎線,代表的是模式選擇符或() 小括號代表我們的模式單元
string = 'fengyunxiongbatianxiadi2budi13ji'
pat = 'feng.un'  #<re.Match object; span=(0, 7), match='fengyun'>
pat = 'feng...'  #<re.Match object; span=(0, 7), match='fengyun'>
pat = '^feng...' #<re.Match object; span=(0, 7), match='fengyun'>
pat = '^eng...'  #None
pat = 'feng...$' #None
pat = 'feng*'  #<re.Match object; span=(0, 4), match='feng'>
pat = 'feng.*' 
 #<re.Match object; span=(0, 32),
 # match='fengyunxiongbatianxiadi2budi13ji'>
 # 這個和一會兒我要講的貪婪模式有關
pat = 'feng.+'  
# <re.Match object; span=(0, 32),
# match='fengyunxiongbatianxiadi2budi13ji'>
pat = 'feng+'  #<re.Match object; span=(0, 4), match='feng'>
pat = 'feng.?'  #<re.Match object; span=(0, 5), match='fengy'>
pat = 'feng?'  #<re.Match object; span=(0, 4), match='feng'>
rst = re.search(pat,string)
print(rst)

<re.Match object; span=(0, 4), match=‘feng’>

模式修正符

I : 表示匹配時忽略大小寫,因爲默認是不忽略大小寫的
M : 表示多行匹配
L : 本地化識別
U : unicode編碼解析
S : 讓點匹配包括換行符

string = 'Python'
pat = 'pyt'
rst = re.search(pat,string)
rst1 = re.search(pat,string,re.I)  # 忽略大小寫,這樣更容易找到需要的字符串
print(rst)
print(rst1)

None
<re.Match object; span=(0, 3), match=‘Pyt’>

貪婪模式與懶惰模式

 貪婪模式的核心點就是儘可能多的匹配,而懶惰模式的核心點就是儘可能少的匹配

#貪婪模式與懶惰模式
string = 'fenn55n5566n666jncdnj'
pat = 'fen.*6'    # 貪婪模式
rst = re.search(pat,string)
print(rst)
pat1 = 'fen.*?6'  # 懶惰模式——精準
rst1 = re.search(pat1,string)
print(rst1)

<re.Match object; span=(0, 15), match=‘fenn55n5566n666’>
<re.Match object; span=(0, 10), match=‘fenn55n556’>

正則表達式函數

re.match()函數——只能從頭開始匹配,返回的是match對象
re.search()函數——可以從任意一個地方開始匹配,返回的是match對象

string = 'fengyunxiongbatianxiadi2budi13ji'
pat = 'feng.?'
rst = re.match(pat,string)  #從以feng打頭的地方開始尋找
print(rst)
pat1 = 'eng.?'
rst1 = re.match(pat1,string)  #從以eng打頭的地方開始尋找
print(rst1)
pat2 = 'eng.?'
rst2 = re.search(pat2,string)  #從任意地方開始尋找eng+一個匹配到的字母
print(rst2)

<re.Match object; span=(0, 5), match=‘fengy’>
None
<re.Match object; span=(1, 5), match=‘engy’>

re.findall() —— 搜索所有滿足正則表達式的字符串,然後返回列表類型

string = 'dpxyfjpvysfnnjptysdspjyfdc'
pat = 'p.?y'
rst = re.match(pat,string)
print(rst)
rst1 = re.search(pat,string)
print(rst1)
rst2 = re.findall(pat,string)  
print(rst2)

None
<re.Match object; span=(1, 4), match=‘pxy’>
[‘pxy’, ‘pvy’, ‘pty’, ‘pjy’]

re.split()函數 ——將一個字符串按照正則表達式匹配的結果進行
(分割,同樣返回一個列表類型)

string = 'dpxyfjpvysfnnjptysdspjyfdc'
pat = 'p.?y'
rst = re.split(pat,string)  #把所有pat分走
print(rst)

[‘d’, ‘fj’, ‘sfnnj’, ‘sds’, ‘fdc’]

re.finditer—— 迭代的獲得每一次正則表達式匹配的結果,並返回一個匹配結果的迭代類型,每個迭代元素是一個match對象,因此它可以通過循環方式對每一個匹配進行循環操作

string = 'dpxyfjpvysfnnjptysdspjyfdc'
pat = 'p.?y'
rst = re.finditer(pat,string)
print(rst)
for i in re.finditer(pat,string):
    if i:
        print(i)
        print(i.group(0))

<callable_iterator object at 0x000002256E46EE10>
<re.Match object; span=(1, 4), match=‘pxy’>
pxy
<re.Match object; span=(6, 9), match=‘pvy’>
pvy
<re.Match object; span=(14, 17), match=‘pty’>
pty
<re.Match object; span=(20, 23), match=‘pjy’>
pjy

實戰部分

實戰內容:獲取“Top250電影”的中文名稱、英文名、港臺名、導演、主演、上映年份、電影分類以及評分信息並格式化輸出到本地文本文件中

import requests
from bs4 import BeautifulSoup
import csv
#提取電影英文名,港臺名,導演,主演,上映年份,電影分類和評分¶
def get_movies():
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36',
        'Host': 'movie.douban.com'
    }
    movie_list = []
    for i in range(0, 10):
        link = 'https://movie.douban.com/top250?start=' + str(i * 25)
        r = requests.get(link, headers=headers, timeout=10)

        soup = BeautifulSoup(r.text, "lxml")
        div_list = soup.find_all('div', class_='info')
        for each in div_list:
            title = each.find('div', class_='hd').a.span.text.strip()
            info = each.find('div', class_='bd').p.text.strip()
            info = info.replace("\n", " ").replace("\xa0", " ")
            info = ' '.join(info.split())
            rating = each.find('span', class_='rating_num').text.strip()
            num_rating = each.find('div', class_='star').contents[7].text.strip()
            try:
                quote = each.find('span', class_='inq').text.strip()
            except:
                quote = ""
            movie_list.append([title, info, rating, num_rating, quote])
    csvFile = open('Top250.csv', 'a+', encoding='utf-8')
    writer = csv.writer(csvFile)
    writer.writerow(('電影英文名', '港臺名', '導演', '主演', '上映年份', '電影分類和評分'))
    for i in range(100):
        writer.writerow(movie_list[i])
    csvFile.close()
    return movie_list

movies = get_movies()
print(movies)

獲得100個電影詳細

這個實戰是我對書中的代碼做的小小改進,使得代碼不光能獲取信息,還能把信息存入csv文件中,具體實戰的詳解我現在還沒有時間講,容我日後詳解。

發佈了9 篇原創文章 · 獲贊 67 · 訪問量 5682
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章