用python正則表達式處理emoji類型的字符問題

在進行數據預處理的時候,我們經常要將句子中的emoji去掉,那麼這裏提供兩種方法去除兩種不同的emoji表情。

環境: python v3.7.3         re

1.?等去除

這裏要使用python的正則表達式

比如現在有如下的句子

sen1 = '希望下輩子投胎的時候老天爺賞我個好點兒的扁桃體???明天起風啦不要霧霾麼麼噠晚安,'

現要把 ?去掉:

emoji_pattern = re.compile(u'[\U00010000-\U0010ffff]')
sen1 = emoji_pattern.sub('', sen1)

其中emoji_pattern是表情過濾模式

sen1即爲修改後的句子:

2.[偷笑]等去除

還是使用我們的萬能正則表達式:

比如現在有如下的句子:

sen2 = '昨天跑路跑到高雄[偷笑]~[太陽]天氣好好喔!'

現要把 [偷笑]和[太陽]去掉:

sen2 = re.sub('\[.*?\]', '', sen2)

sen2即爲修改後的句子:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章