如何從視頻聊天軟件源碼下手，解決敏感詞屏蔽問題

原創

2020-06-15 05:49

視頻聊天平臺魚龍混雜，用戶素質良莠不齊，時常會出現用戶名中出現的不雅字符、聊天室內出現不和諧文字的情況，因此在用戶每次發言時，視頻聊天軟件源碼都會自動對其文字進行驗證，通過匹配“髒字庫”中的固定詞句，屏蔽掉大部分髒字，具體做法如下：

一、整理一份“違禁詞語”，並以數組的格式保存下來，以備後期導入。市面上也有整理好的髒字庫數據組，可以直接拿來修改使用。

如：$arr=array( //把違禁詞用數組保存 
‘0’=>’是個鬼’
 ‘1’=>’就是啊’
 ‘2’=>’哦呵呵’

二、在用戶每次發言後，進入快速的系統審覈階段，將用戶發言與寫入視頻聊天軟件源碼中的違禁詞進行對比，將違禁詞轉化爲亂碼符號。

如：$word=’主播是個美女哦’; //需要驗證的發言
$string=array(); //生成一個數組用來保存之後的數組
foreach($arr as $k=>$v){ //對比違禁詞庫
$str=’’; //生成字符串
for($i=0;$i<mb_strlen($v);$i++){  //計算違禁詞的數量
$str.=’*’;  //生成同樣數量字符串，如：****、&&&&、####
}
$string[]=$str; //生成與違禁詞數組對應的*數組

三、對比結束後，用戶發言纔可發送出來，或告知用戶“有違禁詞禁止發送”

return true;//表示含有該敏感詞
else
return false;//表示不含有該敏感詞

在最開始，人們常用正則表達式進行文字匹配，篩選出關鍵詞進行屏蔽，但那樣一來效率太慢，二來無法處理同音字情況，不是最好的解決方式，現在我們可以用更好地方式解決這一問題：通過特徵匹配，判斷該文本與視頻聊天軟件源碼中敏感詞的相似度。
1、第一種方式是，以某段“距離”爲單位，將文本與違禁詞庫進行比對，而不是精準比對，這樣做的好處是，在用戶發佈違禁詞時，將違禁詞裏摻雜空格、或者將違禁詞倒着寫的情況，很容易被篩選出來。
2、第二種方式是特徵匹配，形近字、音近字、簡轉繁、加空格等進一步精細篩查違禁詞

當然，現在技術已經不單單有針對文本的屏蔽機制了，更重要的語音識別和視頻識別技術也已經相對成熟，視頻聊天軟件源碼可以接入相關SDK，通過視頻截圖和圖像識別來識別膚色、識別人體特徵、識別人的肢體暴露百分比、識別人物動作，有也可以通過語音轉文字識別、音頻關鍵字識別和彈幕監控，進一步識別不當內容。相信在未來，視頻聊天軟件源碼的敏感詞屏蔽功能會越做越好。

文章爲原創，轉載請註明出處及作者。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

如何從視頻聊天軟件源碼下手，解決敏感詞屏蔽問題

sm4加密工具類

一套優秀的直播系統源碼是什麼樣的？起碼要有這五個模塊

2019直播平臺製作，直播搭建教程

網紅帶貨與直播平臺源碼，“直播＋”的成熟模式

網紅直播帶貨系統的互動功能是如何實現的

手機直播app製作大揭祕之視頻直播系統方案

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結