一、準備工作

讀者需在百度智能雲登陸賬號，然後開通百度內容審覈功能，然後根據API Key和Secret Key可以獲得調用接口所需的access_token。

二、代碼調用API進行篩選

獲得API後就是寫代碼進行篩選了，筆者Python代碼如下：

import requests
import json

#獲取審覈結果
def get_result(data_str):
    params = {'text': data_str}
    request_url = 'https://aip.baidubce.com/rest/2.0/solution/v1/text_censor/v2/user_defined?access_token=【此處寫你自己的token】'

    result = requests.post(request_url, headers={'Content-Type': 'application/x-www-form-urlencoded'}, data=params).text
    predict_res = json.loads(result)
    print(predict_res)
    return predict_res['conclusion']

#讀取待測文本
def get_txt():
    with open('./待篩選文本/po/drug.txt', 'r', encoding='utf-8') as f:
        with open('./篩選結果/drug_檢測失效.txt', 'a', encoding='utf-8') as f_err:
            with open('./篩選結果/po/drug.txt', 'a', encoding='utf-8') as f_result:
                for line in f:
        #             print(line.replace('\n',''))
                    result = get_result(line.replace('\n',''))
                    if result == "疑似":
                        f_result.write(line)
                    elif result == "不合規":
                        f_result.write(line)
                    elif result == "合規":
                        print(line.replace('\n','')+"檢測結果爲合規")
                    else:
                        print(line.replace('\n','')+"檢測失效")
                        f_err.write(line)
#主函數
if __name__ == '__main__':
    get_txt()
    print("篩選結束")

三、篩選結果

敏感詞篩選分爲兩個部分：中文敏感詞和藏文敏感詞。中文部分的敏感詞除了分爲六個大類外，還將敏感詞分爲正向敏感詞和負向敏感詞。藏文敏感詞則只是將敏感詞分爲六個大類，未分正負向：

篩選前後的敏感詞庫已經上傳到CSDN，需要的讀者可自行下載：https://download.csdn.net/download/m0_37872090/12274456

該詞庫僅用於技術測試，嚴禁用於違法活動！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

百度內容審查做敏感詞庫篩選

一、準備工作

二、代碼調用API進行篩選

三、篩選結果

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

Python爬蟲實例：爬取某個網頁的子網頁

Python爬蟲實例：爬取國內所有醫院信息

NLP：用Senta做文本情感分析

惡意JavaScript代碼檢測文獻閱讀（一）

惡意JavaScript代碼檢測文獻閱讀（二）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結