如何從視頻聊天軟件源碼下手,解決敏感詞屏蔽問題

在這裏插入圖片描述

視頻聊天平臺魚龍混雜,用戶素質良莠不齊,時常會出現用戶名中出現的不雅字符、聊天室內出現不和諧文字的情況,因此在用戶每次發言時,視頻聊天軟件源碼都會自動對其文字進行驗證,通過匹配“髒字庫”中的固定詞句,屏蔽掉大部分髒字,具體做法如下:

一、整理一份“違禁詞語”,並以數組的格式保存下來,以備後期導入。市面上也有整理好的髒字庫數據組,可以直接拿來修改使用。

如:$arr=array( //把違禁詞用數組保存 
‘0’=>’是個鬼’
 ‘1’=>’就是啊’
 ‘2’=>’哦呵呵’

二、在用戶每次發言後,進入快速的系統審覈階段,將用戶發言與寫入視頻聊天軟件源碼中的違禁詞進行對比,將違禁詞轉化爲亂碼符號。

如:$word=’主播是個美女哦’; //需要驗證的發言
$string=array(); //生成一個數組用來保存之後的數組
foreach($arr as $k=>$v){ //對比違禁詞庫
$str=’’; //生成字符串
for($i=0;$i<mb_strlen($v);$i++){  //計算違禁詞的數量
$str.=’*’;  //生成同樣數量字符串,如:****、&&&&、####
}
$string[]=$str; //生成與違禁詞數組對應的*數組

三、對比結束後,用戶發言纔可發送出來,或告知用戶“有違禁詞禁止發送”

return true;//表示含有該敏感詞
else
return false;//表示不含有該敏感詞

在最開始,人們常用正則表達式進行文字匹配,篩選出關鍵詞進行屏蔽,但那樣一來效率太慢,二來無法處理同音字情況,不是最好的解決方式,現在我們可以用更好地方式解決這一問題:通過特徵匹配,判斷該文本與視頻聊天軟件源碼中敏感詞的相似度。
1、第一種方式是,以某段“距離”爲單位,將文本與違禁詞庫進行比對,而不是精準比對,這樣做的好處是,在用戶發佈違禁詞時,將違禁詞裏摻雜空格、或者將違禁詞倒着寫的情況,很容易被篩選出來。
2、第二種方式是特徵匹配,形近字、音近字、簡轉繁、加空格等進一步精細篩查違禁詞

當然,現在技術已經不單單有針對文本的屏蔽機制了,更重要的語音識別和視頻識別技術也已經相對成熟,視頻聊天軟件源碼可以接入相關SDK,通過視頻截圖和圖像識別來識別膚色、識別人體特徵、識別人的肢體暴露百分比、識別人物動作,有也可以通過語音轉文字識別、音頻關鍵字識別和彈幕監控,進一步識別不當內容。相信在未來,視頻聊天軟件源碼的敏感詞屏蔽功能會越做越好。

文章爲原創,轉載請註明出處及作者。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章