在進行數據預處理的時候,我們經常要將句子中的emoji去掉,那麼這裏提供兩種方法去除兩種不同的emoji表情。
環境: python v3.7.3 re
1.?等去除
這裏要使用python的正則表達式
比如現在有如下的句子
sen1 = '希望下輩子投胎的時候老天爺賞我個好點兒的扁桃體???明天起風啦不要霧霾麼麼噠晚安,'
現要把 ?去掉:
emoji_pattern = re.compile(u'[\U00010000-\U0010ffff]')
sen1 = emoji_pattern.sub('', sen1)
其中emoji_pattern是表情過濾模式
sen1即爲修改後的句子:
2.[偷笑]等去除
還是使用我們的萬能正則表達式:
比如現在有如下的句子:
sen2 = '昨天跑路跑到高雄[偷笑]~[太陽]天氣好好喔!'
現要把 [偷笑]和[太陽]去掉:
sen2 = re.sub('\[.*?\]', '', sen2)
sen2即爲修改後的句子: