python 過濾特殊字符(emoji)

原創

梦因you而美

2020-06-14 08:18

1 前提背景

通過爬蟲獲取到的數據，要存入數據庫，由於數據庫的編碼問題，一些特殊字符出現錯誤，無法進入數據庫

解決辦法：過濾掉這些特殊字符，包含emoji表情等各種特殊字符

2 剔除除中英文及數字外的其他任何字符

這種方法簡單粗暴，直接把非中英文及數字的所有字符串刪除，代碼如下：

import re


def filter_str(desstr, restr=''):
    # 過濾除中英文及數字以外的其他字符
    res = re.compile("[^\u4e00-\u9fa5^a-z^A-Z^0-9]")
    return res.sub(restr, desstr)

3 emoji表情庫

【方法1】：emoji處理庫，emoji官網：https://pypi.org/project/emoji/

# 安裝 
pip install emoji

import emoji

emoji_str = "python is 👍"
# 特殊字符轉換爲正常字符（相當於解碼）
str = emoji.demojize(emoji_str)
print(str)
# 正常字符轉換爲特殊字符（相當於編碼）
emoji_str = emoji.emojize(str)
print(emoji_str)

運行結果：

【方法2】：過濾表情

import re


def filter_emoji(desstr, restr=''):
    # 過濾表情
    res = re.compile(u'[\U00010000-\U0010ffff\uD800-\uDBFF\uDC00-\uDFFF]')
    return res.sub(restr, desstr)


# 打印所有字符
for i in range(0x0, 0x10ffff):
    print(filter_emoji(chr(i)), end=", ")
    if i % 16 == 15:
        print()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Selenium與PhantomJS：自動化測試與網頁爬蟲的完美結合

在當今互聯網時代，自動化測試和網頁爬蟲技術成爲了不可或缺的工具，它們不僅提高了開發效率，也爲數據採集和分析提供了便利。而Selenium與PhantomJS的結合，則爲這兩個領域的應用帶來了全新的可能性。本文將介紹Selenium與Pha

2024-05-22 00:09:17

用好AppBuilder-SDK，每天都能偷偷早下班

本文主要是對這次AppBuilder-SDK直播課程的文字總結，主題是如何在Python中使用AppBuilder-SDK（使用的IDE 爲 PyCharm社區版）感興趣的朋友也可以去看直播課回放。直播課： AppBuil

2024-05-21 12:12:15

Shell/Python中的用戶名獲取

一、幾個基本概念登錄用戶（login user）：通過登錄方式進入系統的用戶，強調登錄身份。當前用戶（current user）：執行一個進程或者命令時所使用的用戶身份，強調執行身份。舉

2024-05-19 00:44:35

網絡爬蟲的祕密：如何高效地抓取JD.com視頻鏈接

在這個數據驅動的時代，信息就是力量。而在這片信息的海洋中，爬蟲技術就像是一艘靈活的潛水艇，讓我們能夠深入海底，探尋那些隱藏的寶藏。今天，我將帶領大家一起踏上一場奇妙的探險之旅，我們將使用Python這把瑞士軍刀，搭配RoboBrowser

2024-05-18 00:07:59

記一次有點抽象的滲透經歷

0x01 獲取webshell 在各種信息蒐集中，發現某個ip的端口掛着一個比較老的服務。首先看到了員工工號和手機號的雙重驗證，也不知道賬號是什麼結構組成的，基本上放棄字典爆破這一條路。於是乎打開之前用燈塔的掃描結果，看看文件泄露是否

2024-05-17 23:16:30

地理數據可視化的神奇組合：Python和Geopandas

本文分享自華爲雲社區《Python與Geopandas：地理數據可視化與分析指南》，作者：檸檬味擁抱。地理數據可視化在許多領域都是至關重要的，無論是研究地理空間分佈、城市規劃、環境保護還是商業決策。Python語言以其強大的數據處理和可視

2024-05-15 10:59:41

Scrapy爬蟲：利用代理服務器爬取熱門網站數據

在當今數字化時代，互聯網上充斥着大量寶貴的數據資源，而爬蟲技術作爲一種高效獲取網絡數據的方式，受到了廣泛的關注和應用。本文將介紹如何使用Scrapy爬蟲框架，結合代理服務器，實現對熱門網站數據的高效爬取，以抖音爲案例進行說明。 1. 簡

2024-05-15 00:08:57

Python函數與模塊的精髓與高級特性

本文分享自華爲雲社區《Python函數與模塊的精髓與高級特性》，作者：檸檬味擁抱。 Python 是一種功能強大的編程語言，擁有豐富的函數和模塊，使得開發者能夠輕鬆地構建複雜的應用程序。本文將介紹 Python 中函數和模塊的基本使用方法，

2024-05-14 11:00:07

利用pyinstaller打包Python程序爲一個可執行文件

有時，Python發佈的程序需要被打包爲一個文件夾、甚至一個文件發佈。目前（2020）最佳的策略是使用pyinstaller。 pyinstaller不僅支持打包整個運行環境到一個可執行文件，而且還支持加密。但唯一的問題是，必須依賴

2024-05-14 02:04:34

做開發我是認真的！要麼不做，要麼全力以赴 | 每日趣聞

戳一戳小程序查看更多！往期趣聞 ☞你拖後腿了嗎？11 月份程序員工資出爐~ | 每日趣聞 ☞計算機專業會修電腦實錘！| 每日趣聞 ☞IT 行業這麼廣，你的職業規劃是什麼？| 每日趣聞 ☞奔潰啦~希望 Python 可

2024-05-14 01:47:34

anaconda和pycharm區別是什麼?Python學習!

　　學習Python的人，肯定聽說過anaconda和pycharm，但是很多人傻傻分不清楚它們之間有什麼區別，今天小編帶大家好好了解一下。　　Anaconda：　　是一個Python發行版，包含了conda、Python等180多個

2024-05-14 01:47:30

Python爬蟲進階必備 | MD5 hash 案例解析彙總（一）

上次鹹魚對關於 MD5 hash 的JS加密方法做了總結，這次把鹹魚遇到的 MD5 hash 的案例做了彙總，這個彙總系列會持續更新，攢到一定數量的網站就發一次。關於 MD5 HASH 的處理可以參考下面這篇文章： Python爬蟲進

2024-05-14 01:40:15

爲程序員和新手準備的 8 大 Python 工具

Python 是一種開源編程語言，用於 Web 編程、數據科學、人工智能和許多科學應用。學習 Python 使程序員能夠專注於解決問題，而不是專注於語法，其豐富的庫賦予它完成偉大任務所需的力量。 1) IDLE 安裝 Python 時

2024-05-14 01:06:43

【編測編學】自動化測試面試必背（上）

1、你會封裝自動化測試框架嗎？這個問得最多，甚至有很多公司直接寫在招聘要求中。自動化框架主要的核心框架就是分層+PO模式：分別爲：基礎封裝層BasePage，PO頁面對象層，TestCase測試用例層。然後再加上日誌處理模塊，ini配置文

2024-05-14 00:41:23

應用星探｜別笑，這三款應用真的超“機智”！

前言歡迎大家來到最新一期的應用星探系列，今天，我們就來盤點那些在AI原生應用中嶄露頭角的創意王者。如果對AI原生應用感興趣的朋友後續可以持續關注哦～ Ai technology

2024-05-16 00:15:55

24小時熱門文章

最新文章

最新評論文章