(一)、社區反垃圾化之文字重複率檢測

(一)、社區反垃圾化之文字重複率檢測

序言:

隨着用戶量的增長和內容化過渡化增長,總會有一些不壞好意的人在你的產品或者應用中留下一些垃圾,這些垃圾並不是傳統意義的垃圾,而是指互聯網上的垃圾文本、垃圾郵件、垃圾圖片、垃圾媒體信息等,這些東西就像漂浮在水中的垃圾一樣,一步步的破壞着產品的水質,於是於產生了反垃圾系統(進行敏感、垃圾信息的過濾系統。主要有:垃圾郵件攔截、微博廣告過濾、彈幕、直播等場景),本博客將會一步步的實現一個簡單的反垃圾系統雛形.

1.反垃圾流程
要進行反垃圾,首先我們需要進行了解一下基本反垃圾流程.
image

2.反垃圾內容檢測

當我們從服務端獲取到用戶發送過的內容後,我們需要對其甄別是否爲垃圾內容,然後決定是否放行該內容.

場景A:某BBS論壇評論區經常有用戶灌水,場景內容如下:

A:今天寫夠15個字、哈哈哈哈哈哈哈哈哈哈哈哈哈.
B:帥哥加我v 帥哥加我v 帥哥加我v 帥哥加我v 帥哥加我v 帥哥加我v

防護分析:在目前這段文本中,含有大量的重複內容信息,達到整串文本的50%,我們可以通過字符重複率來進行判斷是否爲低質量或垃圾內容.

3.技術實現

1.拆解文本爲字符串
2.分析字符所佔比率

下面通過PHP代碼獲取實現了一個文字重複次數

function getStrRepeatRate($str)
{
    $strArr    = mb_str_split($str);
    return array_count_values($strArr);
}

測試文本A:今天寫夠15個字、哈哈哈哈哈哈哈哈哈哈哈哈哈

效果如下:
image

在以上21個字符中,其中“哈”字出現了13次,佔全文比率:61%,我們還可以去複合字符重複最多的三個字來進行計算,佔到全文的一定比率,便可以認定爲低質量內容或垃圾系統.

尾:
雖然會存在一定誤傷,但內容的鑑定往往還是一套組合拳,只有結合起來才能發揮最大的威力,本篇敘述的就暫且這麼多啦.Happy Coding!

image

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章