在做文本處理的時候,經常會使用正則表達式,每次使用的時候,都要使用搜索引擎,怎麼樣才能熟練掌握,提高自己開發的效率,故決定 把正則表達式梳理一下,方便自己掌握
1.split
如果是單個分隔符,可以直接使用字符串的
s = "hello,csdn"
print(s.split(","))
多個分隔符使用正則表達式
import re
# 中文分句
doc = "厲害了!經參報道,近期,包括廣東、北京、上海等多地都在密集出臺新一輪促消費政策。業內指出,從這一輪的促消費政策來看,一個明顯的特點是打造國際消費中心城市、步行街升級版、培育夜經濟等成爲多地的抓手,消費升級有了新路徑、新平臺。預計政策密集落地將爲消費注入強心劑,從國家和地方層面將會有更多政策利好落地……不知道能不能超額完成?"
sents = re.split(r'。|?|!|;|……|\?|!|;',doc)
2.sub
精準替換 直接使用 str.replace()
模糊替換,需要使用 re.sub()
def html_clean(text):
"""
清理文本中的 html 格式
"""
#替換  ;
text = text.replace('& nbsp ;','')
#替換 url
text = re.sub(r'(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]', '', text)
# 替換 html標籤
text = re.sub(r'<[^>]+>', '', text)
return text