10.16

水軍檢測問題整理

摘要

水軍問題由來已久，水軍檢測問題一直非常重要。水軍檢測問題主要面臨的困難包括但不限於：源數據難以獲取；水軍標定規則太主觀；水軍檢測涉及的特徵難以規範化表達等。目前對水軍檢測的工作以圖計算和神經網絡訓練兩種方式爲主。我們目前的工作集中在用CNN實現水軍的檢測。由於水軍特徵繁雜，涉及了至少圖結構處理，自然語言處理，數值處理三個維度，且數據會面臨維度缺失等數據不規範的問題，難以直接轉換到CNN網絡所能識別的輸入。基於這個問題，我們提出了PDL算法，將各個維度數據做了有機整理，以二維矩陣的形式輸入CNN網絡，達到了水軍檢測的目前可知的最高準確率。

我們的算法Picture Detect learning

算法核心思想是，將用戶每條評論的各個維度的信息利用分別設計的評分標準進行評分，然後將所有的評分構成該用戶該條評論的一個特徵向量。爲了能夠更有效的利用評論時間的屬性，我們設置了時間窗，將該用戶時間窗範圍內的所有特徵向量合併成一個二維矩陣。輸出則是對這個二維矩陣所涉及的所有評論的統一評價。如此，將對該用戶某條評論的評價轉化成對該用戶某段時間的評論的評價，豐富了判斷依據，提高了準確率。

下圖給出一個用戶在時間窗下面生成的數據：

對某一時刻用戶特徵在不同數據集下可以做不同的選取。特徵的權重也可以做不同的設定。上圖是假定各個特徵權重均爲1.若認爲某種特徵比較重要，可以人工調高該特徵權重。效果如下：

基於我們在yelp 數據集上的實踐經驗，特徵可以做如下選取：

用戶評分與均值差距，權重：3
商店的評分，權重： 3
商店的評論數量，權重： 3
用戶評論數量，權重： 1
一天內與該用戶評價相同商店的用戶數量權重： 3
三天內與該用戶評價相同商店的用戶數量權重： 3
時間窗設置爲7.

數據集處理

數據集來源有yelp公開數據集；從噹噹網爬取的圖書數據集；從Resellerratings 網站上爬取的數據集；從Amazon下載的公開數據集。
由於水軍標註問題是個非常主觀的問題，我們除了採用人力標註之外，主要採用了多種其他論文的算法進行機器標註，然後將所有標註的均值作爲實際標註。標註算法使用了相關工作中提出的三種算法。

參考文獻

【1】Ennan Zhai ,Zhenhua Li and Zhenyu Li.Resisting Tag Spam by Leveraging Implicit User Behaviors. In Proceedings of VIdb Endowment,2016,10

【2】Q. Cao, X. Yang, and C. Palow. Uncovering large groups of active malicious accounts in online social networks. In CCS, 2014.

【3】S. A. Golder and B. A. Huberman. Usage patterns of collaborative tagging systems. J. Information Science, 32(2):198–208, 2006.

【4】G. Koutrika, F. A. Effendi, Z. Gyongyi, P. Heymann, and ¨ H. Garcia-Molina. Combating spam in tagging systems. In AIRWeb, 2007.

【5】B. Liu, E. Zhai, H. Sun, Y. Chen, and Z. Chen. Filtering spam in social tagging system with dynamic behavior analysis. In ASONAM, pages 95–100, 2009.

【6】Y. Wang, S. Yao, J. Li, Z. Xia, H. Yan, and J. Xu. ReSpam: A novel reputation based mechanism of defending against tag spam in social computing. In 8th IEEE SOSE, 2014.

【7】Wang Z , Gu S , Zhao X , et al. Graph-based review spammer group detection[J]. Knowledge & Information Systems, 2018, 55(3):571-597

【8】Wang G, Xie S, Liu B, et al. Review Graph Based Online Store Review Spammer Detection[J]. 2011:1242-1247

【9】Keshavarz F, Waheed A A, Rachdi B, et al. Review Spam Detection by Highlighting Potential Spammers and Diminishing Their Effect[J]. 2018, 14(1):54-76.

【10】 E. Choo, T. Yu, M. Chi, “Detecting opinion spammer groups and spam targets through community discovery and sentiment analysis”, Journal of Computer Security, vol. 25, no. 3, pp. 283-318, 2017.

【11】E. Choo, “Analyzing Opinion Spammers’ Network Behavior in Online Review Systems,” 2018 IEEE Fourth International Conference on Big Data Computing Service and Applications (BigDataService), Bamberg, 2018, pp. 270-275.

【12】L. Akoglu R. Chandy C. Faloutsos “Opinion fraud detection in online reviews by network effects” ICWSM vol. 13 pp. 2-11 2013

【13】Dewang R K , Singh A K . State-of-art approaches for review spammer detection: a survey[J]. Journal of Intelligent Information Systems, 2017(8):1-34.

水軍檢測問題整理

摘要

相關工作

我們的算法Picture Detect learning

數據集處理

參考文獻

《Python進階》學習筆記

一個docker容器暴露多個端口

leetcode 60 排列序列

Leetcode 3161. 物塊放置查詢

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

10.16

10.16meeting

量化方法總結（1）

Ternary weight networks閱讀筆記

BinaryConnect: Training Deep Neural Networks with binary weights during propagations 閱讀筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結