04.概率統計

騷擾攔截方法

基於黑名單的過濾

  • 布隆過濾器 缺點:布隆過濾器有判錯的概率,有可能會導致錯過重要電話錯過
  • 將黑名單存儲在服務器端,把過濾和攔截的核心工作,交給服務器來做。手機端只需要將負責要檢查的號碼發送給服務器端,服務器經過判別,將結果返回給手機端。要求手機可以聯網。再者網絡通信的速度會影響整個方案的處理速度。

基於規則的過濾器

定義特殊單詞時,要求有大量樣本數據,比如1000萬,並且每一條都要求做好標記,是正常短信還是垃圾短信。如果某個詞在垃圾短信中出現的概率遠大於在正常短信中出現的概率,那麼我們就把這個詞當作特殊單詞。

基於概率統計的過濾器

基於規則的過濾器,看起來很直觀,也很好理解,但是它也有一定的但是它也有一定的侷限性。一方面,這些規則受人的思維方式侷限,規則未免過於簡單。另一方面,發送者可能會根據規則,精心設計短信,繞過基於規則的攔截。

在這裏插入圖片描述

在這裏插入圖片描述

總結

可以將三種算法一起一起使用,來加大判斷的準確性。這可以解決單獨用基於黑名單的過濾器的缺點了。
再者要權衡準確率召回率
準確率是是否會將 一個正確的判斷錯,召回率是是否能把所有的垃圾短信全找到。

延申

我覺得這種分類過濾,最好的可能是機器學習,通過大量的垃圾短信樣本來訓練特徵,最後可以達到過濾短信和郵件的目的,而且這種方法應該效果更好,至於電話攔截,實際上就是電話號碼黑名單的問題,我覺得用布隆過濾器可以滿足通用場景,一般實際場景中,對於這種電話是提示謹慎接聽,但是我們可以本地和雲端結合處理,解決部分的誤報問題,當判斷是黑名單的時候再去雲端查,確認是否是真的黑名單。這樣用布隆過濾器+雲端也是一種方式
機器學習裏也有樸素貝葉斯分類,跟王老師講的原理基本一致
對於短信文本,機器學習尤其是 NLP 方向的很多算法可用於 anti-spam。文本分類任務,特徵工程做得稍用心的話,判別式模型(典型如 logistic regression)的效果通常好於生成式模型(典型如 naive-bayes)。

對於電話號碼數字,感覺用正則或定時拉取黑名單比 ml 模型簡單可靠。
本文是在極客時間上學習數據結構與算法之美的課程後做的筆記。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章