python正則過濾標點符號

import re

# 過濾不了\\ \ 中文()還有————
r1 = u'[a-zA-Z0-9’!"#$%&\'()*+,-./:;<=>?@,。?★、…【】《》?“”‘’![\\]^_`{|}~]+'  # 用戶也可以在此進行自定義過濾字符

# 者中規則也過濾不完全
r2 = "[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*()]+"

# \\\可以過濾掉反向單槓和雙槓,/可以過濾掉正向單槓和雙槓,第一個中括號裏放的是英文符號,第二個中括號裏放的是中文符號,第二個中括號前不能少|,否則過濾不完全
r3 = "[.!//_,$&%^*()<>+\"'?@#-|:~{}]+|[——!\\\\,。=?、:“”‘’《》【】¥……()]+"

# 去掉括號和括號內的所有內容
r4 = "\\【.*?】+|\\《.*?》+|\\#.*?#+|[.!/_,$&%^*()<>+""'?@|:~{}#]+|[——!\\\,。=?、:“”‘’¥……()《》【】]"

text = "\崔芸,\\我愛=+你!【我//""們】~————結/婚'吧::!這.!!_#??()個‘’“”¥$主|意()不錯......!"

print(re.sub(r3, '', text))

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章