10.16

水軍檢測問題整理

摘要

水軍問題由來已久,水軍檢測問題一直非常重要。水軍檢測問題主要面臨的困難包括但不限於:源數據難以獲取;水軍標定規則太主觀;水軍檢測涉及的特徵難以規範化表達等。目前對水軍檢測的工作以圖計算和神經網絡訓練兩種方式爲主。我們目前的工作集中在用CNN實現水軍的檢測。由於水軍特徵繁雜,涉及了至少圖結構處理,自然語言處理,數值處理三個維度,且數據會面臨維度缺失等數據不規範的問題,難以直接轉換到CNN網絡所能識別的輸入。基於這個問題,我們提出了PDL算法,將各個維度數據做了有機整理,以二維矩陣的形式輸入CNN網絡,達到了水軍檢測的目前可知的最高準確率。

相關工作

Review Graph Based Online Store Review Spammer Detection 率先提出了基於graph 的檢測算法,合理利用了用戶間,用戶店鋪間,店鋪之間的信息,打破了基於語義分析的壟斷地位,提供了新的識別思路。

Graph-based review spammer group detection完全的圖分析算法,目標分類是羣組分類,深度利用了圖論知識,提供了良好的評價指標。特點是:劃分羣組,給每個羣打分,多種評估函數,可以應對不同類型羣組,但缺點是圖分割算法會劃出一些興趣相同的魚龍混雜分組,需要優化分割算法

Review Spam Detection by Highlighting Potential Spammers and Diminishing Their Effect 提出了水軍的五個特點,分別是爆發性,極端性,欲蓋彌彰性,瞬時性,羣組性。並基於這五個特點涉及五種特徵函數,計算速度快,識別效果較好,但對羣體性的識別較差,不容易一網打盡。

我們的算法Picture Detect learning

算法核心思想是,將用戶每條評論的各個維度的信息利用分別設計的評分標準進行評分,然後將所有的評分構成該用戶該條評論的一個特徵向量。爲了能夠更有效的利用評論時間的屬性,我們設置了時間窗,將該用戶時間窗範圍內的所有特徵向量合併成一個二維矩陣。輸出則是對這個二維矩陣所涉及的所有評論的統一評價。如此,將對該用戶某條評論的評價轉化成對該用戶某段時間的評論的評價,豐富了判斷依據,提高了準確率。

下圖給出一個用戶在時間窗下面生成的數據:
在這裏插入圖片描述

對某一時刻用戶特徵在不同數據集下可以做不同的選取。特徵的權重也可以做不同的設定。上圖是假定各個特徵權重均爲1.若認爲某種特徵比較重要,可以人工調高該特徵權重。效果如下:

在這裏插入圖片描述

基於我們在yelp 數據集上的實踐經驗,特徵可以做如下選取:

  • 用戶評分與均值差距,權重:3
  • 商店的評分,權重: 3
  • 商店的評論數量,權重: 3
  • 用戶評論數量,權重: 1
  • 一天內與該用戶評價相同商店的用戶數量 權重: 3
  • 三天內與該用戶評價相同商店的用戶數量 權重: 3
  • 時間窗設置爲7.

數據集處理

數據集來源有yelp公開數據集;從噹噹網爬取的圖書數據集;從Resellerratings 網站上爬取的數據集;從Amazon下載的公開數據集。
由於水軍標註問題是個非常主觀的問題,我們除了採用人力標註之外,主要採用了多種其他論文的算法進行機器標註,然後將所有標註的均值作爲實際標註。標註算法使用了相關工作中提出的三種算法。

參考文獻

【1】Ennan Zhai ,Zhenhua Li and Zhenyu Li.Resisting Tag Spam by Leveraging Implicit User Behaviors. In Proceedings of VIdb Endowment,2016,10

【2】Q. Cao, X. Yang, and C. Palow. Uncovering large groups of active malicious accounts in online social networks. In CCS, 2014.

【3】S. A. Golder and B. A. Huberman. Usage patterns of collaborative tagging systems. J. Information Science, 32(2):198–208, 2006.

【4】G. Koutrika, F. A. Effendi, Z. Gyongyi, P. Heymann, and ¨ H. Garcia-Molina. Combating spam in tagging systems. In AIRWeb, 2007.

【5】B. Liu, E. Zhai, H. Sun, Y. Chen, and Z. Chen. Filtering spam in social tagging system with dynamic behavior analysis. In ASONAM, pages 95–100, 2009.

【6】Y. Wang, S. Yao, J. Li, Z. Xia, H. Yan, and J. Xu. ReSpam: A novel reputation based mechanism of defending against tag spam in social computing. In 8th IEEE SOSE, 2014.

【7】Wang Z , Gu S , Zhao X , et al. Graph-based review spammer group detection[J]. Knowledge & Information Systems, 2018, 55(3):571-597

【8】Wang G, Xie S, Liu B, et al. Review Graph Based Online Store Review Spammer Detection[J]. 2011:1242-1247

【9】Keshavarz F, Waheed A A, Rachdi B, et al. Review Spam Detection by Highlighting Potential Spammers and Diminishing Their Effect[J]. 2018, 14(1):54-76.

【10】 E. Choo, T. Yu, M. Chi, “Detecting opinion spammer groups and spam targets through community discovery and sentiment analysis”, Journal of Computer Security, vol. 25, no. 3, pp. 283-318, 2017.

【11】E. Choo, “Analyzing Opinion Spammers’ Network Behavior in Online Review Systems,” 2018 IEEE Fourth International Conference on Big Data Computing Service and Applications (BigDataService), Bamberg, 2018, pp. 270-275.

【12】L. Akoglu R. Chandy C. Faloutsos “Opinion fraud detection in online reviews by network effects” ICWSM vol. 13 pp. 2-11 2013

【13】Dewang R K , Singh A K . State-of-art approaches for review spammer detection: a survey[J]. Journal of Intelligent Information Systems, 2017(8):1-34.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章