正则表达式

序言

让大家久等了，萌萌小编又带来干货给大家了，大家准备双手接住了！这一次，我要介绍python中的re模块，还要隆重介绍正则表达式怎么在爬虫中使用，最后介绍一个爬虫小实战，具体是什么实战，请大家往下翻阅吧。

基础部分

世界上的信息非常多，而我们关注的信息有限。假如我们希望只提取关注的数据，此时可以通过一些表达式进行提取，正则表达式就是其中一种进行数据筛选的表达式。当然正则表达式也有缺点，正则表达式只适合匹配文本字面，不适合匹配文本意义：像匹配url，email这种纯文本的字符就很好，但比如匹配多少范围到多少范围的数字，如果你这个范围很复杂的话用正则就很麻烦。或者匹配html，这个是很多人经常遇到的，写一个复杂匹配html的正则很麻烦，不如使用针对特定意义的处理器来处理（比如写语法分析器，dom分析器等）；但是，使用正则表达式还是有好处的，比如说方便。

原子

原子是正则表达式中最基本的组成单位，每个正则表达式中至少要包含一个原子
原子类型:所有打印字符(a-z,A-Z,0-9,-,*,&@!()等)和非打印字符（换行、Tab键等）都可以作为原子；还有通用字符作为原和原子表。

import re  #首先要导入re包
# 普通字符作为原子
string = 'feng yun xiong ba tian xia'
pat = 'yun'
rst = re.search(pat,string)
print(rst)  #使用re.search()函数寻找rst位于字符串的位置
# # #
pat1 = 'shuang'
rst1 = re.search(pat1,string)
print(rst1)  #使用re.search()函数寻找pat1位于字符串的位置

<re.Match object; span=(5, 8), match=‘yun’>
None

# 非打印字符作为原子
# 最常见的有：\n换行符，\t 制表符（就是我们的tab）
string = '''feng yun
xiong ba tian xia'''     # 三引号可以注释，同时也表示换行的字符串
pat = '\n'
rst = re.search(pat,string)   # 使用re.search()函数寻找\n位于字符串的位置
print(rst)

<re.Match object; span=(8, 9), match=’\n’>

# 通用字符作为原子
'''
\w 匹配任意一个字母、数字或下划线
\W 除字母、数字或下划线以外的任意一个字符
\d 匹配十进制数
\D 除十进制数以外的任意一个字符
\s 匹配任意一个空白字符
\S 除空白字符以外的任意一个字符
'''
string = 'feng yun xiong ba tian xia di 2 bu di 13 ji'
pat = '\w\w\s\d' #找到一个前两个为字母或数字第三位为空格第四位为数字的字符串
rst = re.search(pat,string)  
print(rst)

<re.Match object; span=(27, 31), match=‘di 2’>

# 原子表[]
string = 'feng yun xiong ba tian xia di 2 bu di 13 ji'
pat = 'y[vuw]n'  #自定义原子表
rst = re.search(pat,string)
print(rst)
# #
pat1 = '[yun]'   #自定义原子表
rst1 = re.search(pat1,string)
print(rst1)
# #
pat2 = '[^yun]'  #自定义原子表
rst2 = re.search(pat2,string)
print(rst2)

<re.Match object; span=(5, 8), match=‘yun’>
<re.Match object; span=(2, 3), match=‘n’>
<re.Match object; span=(0, 1), match=‘f’>

转义字符在正则中使用：
1.可以将有意义的字符转义成没有意义的(将有意义的变成原子)，例如’.’;
2.可以将没有意义的字符转义成有意义的,例如n、t等;
3.所有没有意义的字符加上转义也没有意义的，都是可以自由选择加不加转义字符。例如：数字或$等;
正则表达式的基本符号：

转义字符	意义
\n	换行符
\t	制表符
\	普通的反斜杠
\’	单引号
\’’	双引号
\ d	数字

元字符

常用的元字符

. 点，匹配除换行符以外的任意一个字符，如果用了后面讲的模式修正符，换行符它也可以匹配
^ 如果该符号不在我们的原子表里面，它表示匹配字符串开始的位置；在原子表里表示非
$ 匹配结束位置
* 代表的是前面的这个原子出现0次、一次或多次
？代表的是前面的这个原子出现0次或1次（yes/no）
+代表的是前面的这个原子出现1次或多次
$匹配字符串结尾
{n} 代表的是前面的这个原子恰好出现n次，用的时候n会用数字代替
{n,} 代表的是前面的这个原子至少出现n次
{n,m} 代表的是前面的这个原子至少出现n次，至多出现m次
| 竖线，代表的是模式选择符或（）小括号代表我们的模式单元

string = 'fengyunxiongbatianxiadi2budi13ji'
pat = 'feng.un'  #<re.Match object; span=(0, 7), match='fengyun'>
pat = 'feng...'  #<re.Match object; span=(0, 7), match='fengyun'>
pat = '^feng...' #<re.Match object; span=(0, 7), match='fengyun'>
pat = '^eng...'  #None
pat = 'feng...$' #None
pat = 'feng*'  #<re.Match object; span=(0, 4), match='feng'>
pat = 'feng.*' 
 #<re.Match object; span=(0, 32),
 # match='fengyunxiongbatianxiadi2budi13ji'>
 # 这个和一会儿我要讲的贪婪模式有关
pat = 'feng.+'  
# <re.Match object; span=(0, 32),
# match='fengyunxiongbatianxiadi2budi13ji'>
pat = 'feng+'  #<re.Match object; span=(0, 4), match='feng'>
pat = 'feng.?'  #<re.Match object; span=(0, 5), match='fengy'>
pat = 'feng?'  #<re.Match object; span=(0, 4), match='feng'>
rst = re.search(pat,string)
print(rst)

<re.Match object; span=(0, 4), match=‘feng’>

模式修正符

I : 表示匹配时忽略大小写，因为默认是不忽略大小写的
M : 表示多行匹配
L : 本地化识别
U : unicode编码解析
S : 让点匹配包括换行符

string = 'Python'
pat = 'pyt'
rst = re.search(pat,string)
rst1 = re.search(pat,string,re.I)  # 忽略大小写，这样更容易找到需要的字符串
print(rst)
print(rst1)

None
<re.Match object; span=(0, 3), match=‘Pyt’>

贪婪模式与懒惰模式

贪婪模式的核心点就是尽可能多的匹配，而懒惰模式的核心点就是尽可能少的匹配

#贪婪模式与懒惰模式
string = 'fenn55n5566n666jncdnj'
pat = 'fen.*6'    # 贪婪模式
rst = re.search(pat,string)
print(rst)
pat1 = 'fen.*?6'  # 懒惰模式——精准
rst1 = re.search(pat1,string)
print(rst1)

<re.Match object; span=(0, 15), match=‘fenn55n5566n666’>
<re.Match object; span=(0, 10), match=‘fenn55n556’>

正则表达式函数

re.match()函数——只能从头开始匹配,返回的是match对象
re.search()函数——可以从任意一个地方开始匹配,返回的是match对象

string = 'fengyunxiongbatianxiadi2budi13ji'
pat = 'feng.?'
rst = re.match(pat,string)  #从以feng打头的地方开始寻找
print(rst)
pat1 = 'eng.?'
rst1 = re.match(pat1,string)  #从以eng打头的地方开始寻找
print(rst1)
pat2 = 'eng.?'
rst2 = re.search(pat2,string)  #从任意地方开始寻找eng+一个匹配到的字母
print(rst2)

<re.Match object; span=(0, 5), match=‘fengy’>
None
<re.Match object; span=(1, 5), match=‘engy’>

re.findall() —— 搜索所有满足正则表达式的字符串，然后返回列表类型

string = 'dpxyfjpvysfnnjptysdspjyfdc'
pat = 'p.?y'
rst = re.match(pat,string)
print(rst)
rst1 = re.search(pat,string)
print(rst1)
rst2 = re.findall(pat,string)  
print(rst2)

None
<re.Match object; span=(1, 4), match=‘pxy’>
[‘pxy’, ‘pvy’, ‘pty’, ‘pjy’]

re.split()函数 ——将一个字符串按照正则表达式匹配的结果进行
（分割，同样返回一个列表类型）

string = 'dpxyfjpvysfnnjptysdspjyfdc'
pat = 'p.?y'
rst = re.split(pat,string)  #把所有pat分走
print(rst)

[‘d’, ‘fj’, ‘sfnnj’, ‘sds’, ‘fdc’]

re.finditer—— 迭代的获得每一次正则表达式匹配的结果，并返回一个匹配结果的迭代类型，每个迭代元素是一个match对象，因此它可以通过循环方式对每一个匹配进行循环操作

string = 'dpxyfjpvysfnnjptysdspjyfdc'
pat = 'p.?y'
rst = re.finditer(pat,string)
print(rst)
for i in re.finditer(pat,string):
    if i:
        print(i)
        print(i.group(0))

<callable_iterator object at 0x000002256E46EE10>
<re.Match object; span=(1, 4), match=‘pxy’>
pxy
<re.Match object; span=(6, 9), match=‘pvy’>
pvy
<re.Match object; span=(14, 17), match=‘pty’>
pty
<re.Match object; span=(20, 23), match=‘pjy’>
pjy

实战部分

实战内容：获取“Top250电影”的中文名称、英文名、港台名、导演、主演、上映年份、电影分类以及评分信息并格式化输出到本地文本文件中

import requests
from bs4 import BeautifulSoup
import csv
#提取电影英文名，港台名，导演，主演，上映年份，电影分类和评分¶
def get_movies():
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36',
        'Host': 'movie.douban.com'
    }
    movie_list = []
    for i in range(0, 10):
        link = 'https://movie.douban.com/top250?start=' + str(i * 25)
        r = requests.get(link, headers=headers, timeout=10)

        soup = BeautifulSoup(r.text, "lxml")
        div_list = soup.find_all('div', class_='info')
        for each in div_list:
            title = each.find('div', class_='hd').a.span.text.strip()
            info = each.find('div', class_='bd').p.text.strip()
            info = info.replace("\n", " ").replace("\xa0", " ")
            info = ' '.join(info.split())
            rating = each.find('span', class_='rating_num').text.strip()
            num_rating = each.find('div', class_='star').contents[7].text.strip()
            try:
                quote = each.find('span', class_='inq').text.strip()
            except:
                quote = ""
            movie_list.append([title, info, rating, num_rating, quote])
    csvFile = open('Top250.csv', 'a+', encoding='utf-8')
    writer = csv.writer(csvFile)
    writer.writerow(('电影英文名', '港台名', '导演', '主演', '上映年份', '电影分类和评分'))
    for i in range(100):
        writer.writerow(movie_list[i])
    csvFile.close()
    return movie_list

movies = get_movies()
print(movies)