NLPCC2019 - User-Characteristic Enhanced Model for Fake News Detection in Social Media

原創

2020-06-13 02:14

前言

在大四上學期的一門課上研讀了一篇關於虛假新聞檢測的頂會論文，後對這個領域產生了濃厚興趣，在畢業論文選擇了社交媒體上的虛假新聞檢測來作爲題目，最終論文成果有幸被NLPCC2019會議所收錄，算是科研菜雞的一個小小進步吧。如有不足，可多多交流~
PS之前針對虛假新聞檢測領域所寫的博客：
論文研讀博客
 虛假新聞相關數據集
 虛假新聞近幾年文獻列表

論文講解

研究難點

由於虛假新聞的傳播帶來的影響較大，對其的研究也一直處於熱點，從百度學術對虛假新聞的研究走勢可看出，同時在近五年的各大頂會中也有其身影，但研究始終存在一定難點，由於虛假新聞具有特殊性，單從新聞內容難辨真假，同時虛假新聞中可能摻雜着真實內容而導致文本特徵不足，還需要引入外部知識，如知識庫或社交媒體用戶信息。而作爲輔助信息則存在着數據量大、不完整和存在噪音等特點。

方法分類

在研讀了虛假新聞領域相關的方法後，可以瞭解到目前領域大致有三個方向：一是基於新聞文本，包括正文、來源、標題、圖片、視頻等；二是基於網絡結構，包括新聞傳播網（涉及時序性特徵、用戶評論等）或者自行構建異構網絡；三是基於融合框架，融合不同類型的特徵，如文本、圖片、網絡、用戶特徵等。

本文方法

大多數研究中對個體特徵和羣體特徵爲獨立分析，且僅僅分析網絡結構，而忽略構成網絡的個體特徵。在本研究中，我們構建了一個融合框架，分別學習新聞文本以及重構的新聞-用戶網絡特徵。不同以往的研究，我們的模型重點在於通過網絡表示學習的方法學習帶有用戶特徵的用戶關係網，後以閾值限定添加新的用戶關係在新聞-用戶的傳播網絡中，對重構後的網絡進行再學習的方式獲取網絡特徵。具體模型如下圖所示：

實驗數據集

研究所採用的是公開數據集FakeNewsNet，其中包含兩份數據集，數據來源於有名的政治性事實覈對平臺PolitiFact和新聞聚合網站BuzzFeed，數據標籤由平臺權威專家所提供，內容包含新聞文本（發佈者，標題，主體，視頻圖片）和社會語境（用戶關注，用戶內容），且數據集持續不斷地進行更新。相比現有的數據集，其數據維度廣。
具體可見github：https://github.com/KaiDMML/FakeNewsNet 【目前數據集已更新版本】

前期探索

爲了便於確定方法的可行性，對數據集進行初步的探索，在文本長度，用戶詞頻，用戶關聯，用戶-新聞關聯四個方面進行相應的數據統計，其中在用戶關聯方面可見，粉絲量或者關注量爲0 的異常用戶存在，而用戶詞頻方面也存在大部分爲0 的用戶，爲後續實驗驗證提供一定的依據。

數據預處理

文本預處理

主要對新聞文本進行清洗，更改縮略詞，替換標點符號，並去除特殊字符和空格，由於在虛假新聞檢測中停用詞具有其作用，實驗過程保留停用詞。最後給文本數據賦予標籤，此處真新聞爲1，假新聞爲0。

網絡結構預處理

原始數據提供用戶和新聞關係以及用戶間的關係，在此均處理成鄰接表的形式，以“新聞-用戶-傳播次數”和“用戶-用戶-權重”，考慮爲無向圖的形式，因此用戶間的權重設置爲1，對新聞-用戶和用戶-用戶作爲整體作爲構建圖表示的輸入。

實驗結果

具體的實驗過程以及實驗成果可見如下poster

論文地址：http://tcci.ccf.org.cn/conference/2019/papers/182.pdf

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

NLPCC2019 - User-Characteristic Enhanced Model for Fake News Detection in Social Media

前言

論文講解

研究難點

方法分類

本文方法

實驗數據集

前期探索

數據預處理

文本預處理

網絡結構預處理

實驗結果

用戶畫像應用中的常見誤區

錯誤記錄 - 訓練深度學習模型loss爲nan的原因

用戶畫像如何驗證正確性？

SQL優化系列 - MySQL表設計時要注意什麼？

數據分析進階-分析思維（1）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結