python 中正則表達式的學習

在做文本處理的時候,經常會使用正則表達式,每次使用的時候,都要使用搜索引擎,怎麼樣才能熟練掌握,提高自己開發的效率,故決定 把正則表達式梳理一下,方便自己掌握

 1.split

如果是單個分隔符,可以直接使用字符串的

s = "hello,csdn"
print(s.split(","))

多個分隔符使用正則表達式

import re

# 中文分句

doc = "厲害了!經參報道,近期,包括廣東、北京、上海等多地都在密集出臺新一輪促消費政策。業內指出,從這一輪的促消費政策來看,一個明顯的特點是打造國際消費中心城市、步行街升級版、培育夜經濟等成爲多地的抓手,消費升級有了新路徑、新平臺。預計政策密集落地將爲消費注入強心劑,從國家和地方層面將會有更多政策利好落地……不知道能不能超額完成?"

sents = re.split(r'。|?|!|;|……|\?|!|;',doc)

2.sub

精準替換 直接使用 str.replace()

模糊替換,需要使用 re.sub()

def html_clean(text):
    """
    清理文本中的 html 格式
    """
    #替換  
    text = text.replace('& nbsp ;','')
    #替換 url
    text = re.sub(r'(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]', '', text)
    # 替換 html標籤
    text = re.sub(r'<[^>]+>', '', text)
    return text

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章