fake news相關 2019-2020 五篇論文閱讀

創新點、改進點、實驗用到的數據集、不足



1 Bi-GCN

關鍵詞:傳播網絡,GCN,謠言檢測,早期檢測

論文題目:Rumor Detection on Social Media with Bi-Directional Graph Convolutional Networks

論文來源:AAAI 2020

本文解決的問題是謠言檢測,提出了Bi-GCN模型,並且實驗結果顯示該模型在謠言的早期檢測中也起到了很好的效果。


數據集

  • Weibo[1]
  • Twitter15[2]
  • Twitter16[2]

本文的亮點和要點

(1)第一個使用基於GCN的方法進行了謠言檢測任務。

(2)和以往方法不同的是,模型考慮到了自頂向下的謠言傳播(propagation)結構,和自底向上的來自不同社區的謠言散佈(dispersion)結構。具體表現爲Bi-GCN由TD-GCN(top-down GCN)和BU-GCN(bottom-up GCN)兩個組件所構成。以往的方法大多隻使用到了自頂向下的謠言傳播結構。有基於CNN的方法考慮到了散佈結構,但是由於其不能處理圖結構的數據,因此不能捕獲全局的結構信息。

(3)模型還使用到了根源帖子特徵的增強。具體來說是在GCN每層GCL中,對於每個節點,將根源帖子在上一層的隱層特徵表示和節點在該層的隱層特徵表示向拼接起來,作爲節點在該層的最終隱層特徵表示。這種方法增強了謠言根源帖子對於學習到其他帖子節點表示的影響力,可幫助模型學習得到更有助於謠言檢測的節點表示。

(4)還使用到了較新的DropEdge方法,以緩解基於GCN的模型的過擬合問題。


思考

本文模型是針對謠言傳播網絡建模的,構建的圖中只有帖子的信息和帖子間的關聯信息,我認爲這是個同質圖。後續能不能考慮利用上用戶和帖子的關係,以及用戶間的關係,建模成一個異質圖,然後在此基礎上使用基於GNN的方法,進行謠言檢測任務。


2 Capturing the Style of Fake News

關鍵詞:寫作風格,特徵,LSTM,假新聞檢測

論文題目:Capturing the Style of Fake News

論文來源:AAAI 2020

本文的目的是基於文檔內容,檢測出寫作風格,而不側重於文檔含義,從而實現假新聞的自動檢測。通用的文本分類器,儘管在簡單評估時看起來性能很好,但實際上會過擬合訓練數據中的文本。

設計了兩個新的分類器:一個神經網絡和一個基於風格特徵的模型。

作者將本文的方法和通用目的的分類器(bag of words, BERT)進行了對比,評估結果表明,所提出的分類器在未見過的主題(例如新事件)和未見過的來源(例如 新出現的新聞網站)的文檔中都保持了較高的準確性。對風格模型的分析顯示,它確實側重於了聳人聽聞(sensational)和情感(affective)的這類典型的假新聞詞彙。


數據集

爲了實現真正的基於風格的預測,作者從媒體專家標註的223個在線資源中獲取了103,219個文檔,共117M個tokens。

數據集和代碼已公開:https://github.com/piotrmp/fakestyle


已有方法的問題

已有的機器學習方法,使用了通用目的的文本分類器算法。不足在於,這樣的方法讓我們不能直接控制可信度評估具體是基於哪些特徵的。作者希望分類器有可解釋性:即能知道對於特定的決策,哪些特徵是重要的;並且分類器還應具備泛化能力。

已有的方法受限於可獲得的數據量,會導致對特定主題或來源的數據的過擬合。


本文的亮點和要點

爲了對來源間topic的不同進行建模,使用LDA建模了100個topic。將每個文檔都分配到其相關度最高的topic。

(1)基於風格的分類器

使用風格特徵的集合,進行線性建模。

1)使用POS tags的n-grams而不是單詞的n-grams,以避免使用讓分類器對特定的來源或主題過擬合的特徵。

2)在風格分析中使用字典,例如用於假新聞檢測的LIWC[3]和用於hyperpartisan新聞識別的GI[4]。作者採用word2vec方法對這些資源裏每個類別的單詞選取相似的單詞,以實現對字典的擴展。

3)使用Stanford CoreNLP對文檔進行預處理,例如句子分割、tokenisation和POS tagging。並利用標註信息生成文檔特徵。

4)使用兩階段的方法檢測相關的特徵:首先preliminary filtering,然後building a regularised classifier。

在過濾階段,作者使用Pearson相關度和輸出變量。首先,觀察特徵jj是否出現在了文檔ii中,並得到一個binary matirx。以往的方法過濾掉了出現在較少文檔(低於2.5%或10%)中的特徵。但這些低頻特徵也可能很重要,只要它們出現在的大部分文檔都屬於同一類別。因此,作者引入了類別標籤,並考慮了標籤和binary matirx中每個特徵的相關度大於0.05的特徵。

構建了一個logistic regression模型,以得到文檔屬於不可信類別的概率。使用了L1L_1正則化。


(2)神經網絡分類器BiLSTMAvg

BiLSTMAvg是一個神經網絡,基於NLP中使用的元素,例如詞嵌入、Bi-LSTM。在LSTM的基礎上,添加一個額外層,對所有句子的可信度得分進行平均以得到整個文檔的得分。神經網絡結構如下:

  • 嵌入層:在Google News上進行訓練,爲每個token得到word2vec向量;
  • 兩層LSTM:前向和反向,使用兩個100維向量表示每個句子;
  • densely-connected層:將維度減少爲2並應用softmax計算類別概率;
  • 平均層:對文檔中所有句子的類別概率分值求平均,以得到整個文檔的得分。

(3)作者在實驗時採用了5-fold交叉驗證(CV),並且設置了三種不同的場景,分別是plain document-based CV, topic-based CV和source-based CV。這樣就可以評估模型在訓練時沒出現過的topic或source上的性能。


思考

(1)文章提出了兩個模型,其一是BiLSTMAvg,其二是Stylometric。只有後者運用到了和風格有關的特徵。而且在實驗對比中,source CV情境下,BiLSTMAvg的效果要好於Stylometric。但是作者只具體分析了基於風格的Stylometric方法對不同來源的數據分類性能。

(2)我認爲本文中所說的風格體現在詞級別上,是否可以考慮更粗粒度的級別,或者更抽象一些的方面。

(3)作者提出了3個評估場景,未來可以考慮其他的更多的評估場景。

(4)本文是利用文檔的風格,爲新聞的可信度進行打分,從而檢測出假新聞,可以歸爲content-based類的方法。文章的角度很有新意,針對以往的通用分類模型在信息來源和相關主題上會有過擬合現象,因此設計了有現實意義的評估場景(3個CV),以衡量可信度評估方法的性能。在社交網絡上的假新聞檢測,可以考慮將風格信息和社交網絡上下文的信息相結合。


3 WeFEND

關鍵詞:訓練數據,強化學習,衆包信號(crowd signal),假新聞檢測

論文題目:Weak Supervision for Fake News Detection via Reinforcement Learning

論文來源:AAAI 2020

本文爲了解決高質量的及時的且有標註的新聞數據獲取問題,以用於儘早檢測出假新聞,提出增強的弱監督假新聞檢測框架WeFEND。該模型利用了用戶的反饋作爲弱監督來增加用於假新聞檢測的訓練數據。

模型由3個主要部分組成:標註器,增強的選擇器和假新聞檢測器。標註器可以基於用戶的反饋,自動地爲未標註的新聞分配弱標籤。增強的選擇器使用了強化學習技術,從被弱標註的數據中選擇高質量的樣本,過濾掉可能會降低檢測器性能的低質量樣本。假新聞檢測器目的是基於新聞內容識別出假新聞。

數據集

微信官方賬號發佈的新聞文章,以及其對應的用戶反饋信息。

數據集:https://github.com/yaqingwang/WeFEND-AAAI20


已有方法的不足

(1)基於社交上下文的特徵:利用了社交媒體上用戶對新聞的行爲,例如轉發、網絡結構等。但是這些社交上下文的特徵只能在一段時間後才能獲得,不能用於及時地檢測出新出現的假新聞。

(2)基於新聞內容的特徵:對於傳統的機器學習方法,人工設計特徵很難。使用深度學習的模型沒有這個問題,但是其性能受訓練數據規模的限制,缺少新鮮高質量的樣本用於訓練。

(3)現有的引入衆包信號的方法:從用戶標記爲是潛在假新聞的樣本中,選擇一部分交付給專家進行確認,相當於仍需要人工標註,並且沒有考慮到有價值的評論反饋信息。


文章的亮點和要點

本文針對的是假新聞檢測訓練數據獲取問題,提出了WeFEND模型,以自動標註新聞文章,增加訓練集的數據規模,從而有助於假新聞檢測的深度學習模型性能的提高。

動機是:人工標註費時費力,並且通常不能及時地對新聞數據進行標註。訓練數據限制了深度學習模型的性能。

主要思想是:將用戶對新聞的反饋(如 評論)視爲弱標註信息,收集大量的用戶反饋信息有助於緩解假新聞檢測領域的有標籤數據較少的問題。

面臨的問題是:用戶的反饋信息有噪聲,如何將這種弱標註信息轉換爲訓練集中的標註樣本,如何選擇高質量的樣本。

WeFEND模型的流程是

(1)標註器:首先使用給定的一小組有標籤的假新聞樣本和用戶對這些新聞的反饋,基於反饋訓練一個標註器。具體來說是先使用文本特徵抽取器,從新聞的用戶反饋信息中抽取出特徵;然後再輸入給聚合函數,聚合不同用戶的反饋信息;最後經過一個全連接層,得到預測概率。使用訓練後的標註器處理未標註的新聞,基於未標註新聞的用戶反饋,爲未標註的新聞分配弱標籤;

(2)增強的選擇器:使用強化學習技術,從弱標註的樣本中選擇高質量的樣本,並將其作爲假新聞分類器的輸入。選擇的標準是增加所選的樣本是否能提高假新聞檢測的性能。;

(3)假新聞分類器:基於新聞的內容,爲每個輸入的文章分配一個標籤。

文章的亮點在於

(1)爲了及時地得到大量有效的標註樣本,提出利用用戶對新聞的反饋信息作爲弱監督信息,爲未標註的新聞樣本標註上弱標籤。考慮到用戶反饋信息含有噪聲,因此提出使用強化學習技術對自動標註的樣本進行選擇,選取高質量的樣本添加到訓練集中。

(1)進行了多樣的實驗:

1)在實驗中比較了不同時間窗口下的特徵表示不同以及模型性能的不同,證明了新聞的分佈具有動態性,因此說明了應該及時標註和新出現事件相關的新聞。

2)實驗證明了用戶反饋信息的有效性,使用這一信息,標註器在相同和不同時間窗口對應的數據上,有着相似的表現。並且用戶反饋信息的特徵不具有隨時間變化的動態性。

3)訓練集和測試集的數據在時間上並不相交,因此可以驗證模型對新鮮數據進行分類的效果。


思考

(1)標註器部分對同一篇新聞的所有用戶評論信息進行了聚合,作者使用的是平均操作作爲無序的聚合函數。是否可以考慮在聚合時使用注意力機制。

(2)在人工標註時僅根據標題(headline)信息,因此模型中也是僅使用標題作爲輸入數據,而沒有考慮新聞文章具體內容。

(3)個人感覺這篇論文的實驗做得很好,尤其是通過實驗,對新聞的分佈是否隨時間變化以及爲什麼要使用用戶反饋信息做出了有說服力的解釋。


4 Proactive Discovery of Fake News Domains from Real-Time Social Media Feeds

關鍵詞:實時,社交網絡,主動發現,圖,社交網絡賬號,假新聞來源檢測

論文題目:Proactive Discovery of Fake News Domains from Real-Time Social Media Feeds

論文來源:WWW 2020

本文解決的問題是假新聞新來源的主動檢測,目的是在假新聞被人工標註前將其識別出來,以最小化假新聞的有害影響。本文是第一個研究及時發現假新聞來源的工作。

利用了無標註但有結構的實時社交媒體數據,檢測系統以域(domain)爲檢測單元。假新聞域的定義是:捏造信息、散佈欺騙性的內容或嚴重歪曲實際新聞的網站。

系統一共分爲兩步:1)使用Twitter來發現用戶共享結構以發現政治有關的網站;2)使用topic-agnostic分類器打分並排序新發現的領域。

作者還設計了用戶界面,利用用戶的知識,有助於促進事實覈查過程。

數據集

使用的訓練集是文獻[5]中的使用的PoliticalFakeNews。7,136 pages from 79 fake sites, and 7,104 pages from 58 real sites

評估時使用MediaBiasFactCheck(MBFC)提供的有限的標籤ground truth去近似global ground truth。Github上有MBFC發佈和更新的所有有標籤的域(domain)。

https://raw.githubusercontent.com/drmikecrowe/mbfcext/master/docs/revised/csources.json


文章的亮點和要點

(1)作者認爲覆蓋了相似話題的域(domain),可能被相似的用戶tweeted或retweeted(迴音壁效應)。

因此,使用了Twitter中的信息基於用戶共享相似度,構建了一個域交互圖(對域聚類)。將每個域映射到發佈和該域有關推文的用戶集上。構建了一個無向圖,節點表示一個域,若兩節點對應的用戶集之間的jaccard相似度大於某一閾值,則兩節點間有邊相連。

構建好圖之後,運用算法抽取出網絡中所有的聚類簇。


(2)系統的最後一步是對發現的域進行打分和排序。使用了文獻[5]中提出的topic-agnostic假新聞分類器(TAG),輸出對新聞是假新聞的打分。

本文使用的topic-agnostic分類器[5]捕獲了假新聞網站的寫作風格和佈局風格信息,沒有獲得話題信息,因爲預測未來新聞的話題是很困難的。並且,網站發佈的新聞主題可能每天都在變化,但是網站的風格不會變化地很頻繁。

作者對TAG做出的改進:

1)添加了Quantile Transformer將每個特徵轉換爲正態分佈,這一方法是魯棒的預處理模式,可以減少異常點的影響。

2)識別訓練數據中的異常:丟棄了單詞總數小於200或大於2000的web pages。前者是有404錯誤的網頁,後者是與某一新聞無關的目錄頁。

3)去掉了原始方法中用於捕獲單詞語義模式(生氣 恐懼 高興等)的心理學特徵。因爲這組特徵需要人工處理,不符合本文自動檢測的需求。


(3)TAG分類器將web page作爲輸入,得到了page級別的分值,我們還要得到有多個pages的域級別的分值。具體方法是使用custom headliss Chrome爬取器,訪問域主頁,解析HTML內容,隨機選取有相同域的5個超鏈接。針對域的分值就是這5個pages分值的平均值。


(4)關於社交網絡賬號:

1)使用domain-level fakeness分值推斷出account-level fakeness分值。

將賬號最近發佈的200個推文的domain-level fakeness分值取平均,作爲該賬號的fakeness score。

將此分值和任意獲得到的特徵結合,可用於social bot detection, troll detection或sentiment analysis等下游任務。

2)使用Botometer方法檢測了本文收集到的賬號是否是bot的概率,結果證明了絕大部分賬號都是正常的。

3)關於賬號描述

根據賬號的得分將其分爲三類:likely to share fake news, might likely to share fake news, not likely to share fake news。並沒有發現這三類賬號在發推數量、朋友數量、關注者數量上分佈的區別,但是發現了不同類別的賬號在賬號描述上有所區別。

還發現了不同類別賬號的人口統計特徵不同,但這一點還有待進一步的研究。


本文的亮點:利用實時社交網絡構建出了域(domain)交互圖,利用該網絡,實現了主動發現假新聞域。系統結合了無監督聚類、有監督預測和用戶交互。(文中所說的域的概念,應該值得是新聞的來源)


思考

本文的侷限性:

(1)採樣偏差和選擇偏差

採樣偏差來源於US-centric訓練集。選擇偏差來自於2部分,一個是本文的系統僅聚焦於Twitter,另一個是數據收集過程需要人爲輸入關鍵詞,這一操作受主觀因素的影響。

採樣偏差的緩解可使用本文的系統,從事實覈查者收集反饋信息。作者也考慮收集不同國家不同語言的fake和real domains。

選擇偏差的緩解可通過從多個社交媒體中收集數據,使用多樣的關鍵詞、hashtags、user handles來捕獲潛在的新聞發佈者。例如,從fakeness得分高的賬號那裏收集實時的推文,替代特定的關鍵詞。

(2)缺乏統一的數據集和評價框架

數據集:使用以前的數據集是有風險的,因爲對手可能恰恰利用相同的數據集來逃避檢測。

評價:評價新發現的域是很耗時的。作者計劃將用戶界面引入到研究社區、事實覈查羣裏和社交媒體公司,以加速標籤的產生。


(3)未來可以利用更多的羣體智能知識。

(4)本文構建的域交互圖只是用來做了域聚類,因爲本文的目的是檢測新出現的假新聞來源,因此沒有利用到社交網絡中其他更多的信息,例如傳播信息。後續可以考慮針對具體任務,從不同的角度建模圖。


5 dEFEND

關鍵詞:可解釋性,社交網絡,層級注意力機制,共同注意力機制(co-attention),假新聞檢測

論文題目:dEFEND: Explainable Fake News Detection

論文來源:SIGKDD 2019

本文解決的是假新聞檢測模型的可解釋性問題。提出了具有可解釋性的假新聞檢測方法dEFEND。在社交媒體上的假新聞檢測領域,是第一個嘗試提出具有可解釋的模型的研究。

本文利用新聞內容和用戶評論,設計了sentence-comment co-attention subnetwork,聯合捕獲了可解釋的topktop-k個值得檢查的句子和用戶評論,以用於假新聞檢測。

實驗結果顯示,本文的模型不僅顯著優於7個state-of-the-art假新聞檢測方法,還可以同時識別出topktop-k個解釋這一新聞爲什麼是假新聞的用戶評論。


數據集

使用的是假新聞檢測基線數據集:FakeNewsNet[6-7]


本文的亮點和要點

本文要解決的問題是假新聞檢測模型的可解釋性。

本文解決的挑戰

(1)如何實現可解釋的假新聞檢測,並同時提高檢測性能和可解釋性;

(2)在訓練時沒有ground truth的條件下,如何抽取出有解釋性的評論;

(3)如何聯合建模新聞內容和用戶評論間的關係,以 實現有解釋性的假新聞檢測。

利用了新聞內容和用戶評論信息。檢測框架由以下幾部分組成

(1)編碼新聞內容組件:通過層級(word-, sentence-level)注意力神經網絡,捕獲新聞句子中的語義信息和句法信息,學習得到新聞句子的表示。

具體來說分爲兩步,首先使用雙向GRU對每個句子中的單詞序列進行編碼,並使用了注意力機制爲不同的單詞賦予不同的重要性權重,聚合得到每個句子的表示。然後使用雙向GRU,上一步得到的句子向量表示作爲輸入,對一篇新聞中的句子序列進行編碼,以捕獲句子級別的上下文信息。將每個隱層的兩個方向的表示拼接起來,就得到了融合了上下文句子信息的該句子的表示,最終就得到新聞內容的特徵矩陣。

(2)編碼用戶評論組件:通過詞級別的注意力子網絡,學習到用戶評論的隱層表示。

和編碼新聞內容組件中的單詞編碼類似,使用雙向GRU,對評論中的單詞序列進行編碼,同樣也使用到了注意力機制。

(3)sentence-comment co-attention組件:捕獲新聞內容和評論間的關聯,並選擇出topktop-k個有解釋性的句子和評論。

用戶的評論可以提高假新聞檢測的可解釋性,新聞中的句子也可以。新聞內容中也有表達內容是真實的句子,只不過有時會用來支持錯誤的觀點。因此新聞中的句子對於識別和解釋假新聞也同等重要。

因此,將前兩個組件得到的特徵作爲此組件的輸入,作者設計了注意力機制爲不同的新聞句子和評論表示分配權重。注意,這個sentence-comment co-attention機制捕獲了句子和評論的semantic affinity,也同時學習到了句子和評論的注意力權重。使用了轉換矩陣,實現了用戶評論注意力空間到新聞句子注意力空間的轉換。最終使用注意力權重分別聚合評論特徵和新聞句子特徵,得到評論和新聞句子的最終特徵表示。

(4)假新聞預測組件:將新聞內容特徵和用戶評論特徵相拼接,用於假新聞分類。

解釋性評估實驗

句子解釋性評估:使用ClaimBuster得到新聞句子排序列表RSRS的ground truth RS~\tilde{RS}。將本文方法選擇出的topktop-k(k=5或10)rank list和RS~\tilde{RS}比較,使用MAP@kMAP@k作爲度量,並於HAN和Random方法對比。結果顯示本文模型效果最好。

用戶評論解釋性評估:使用2個Amazon Mechanical Turk(AMT)任務評估評論排序列表RCRC的解釋性。

AMT任務:https://www.mturk.com/

本文的亮點

(1)本文要解決的問題是假新聞檢測模型的可解釋,很有研究意義,提出了具有可解釋性的假新聞檢測模型dEFEND。

(2)使用了層級注意力機制和共同注意力機制(co-attention)。前者在對新聞內容建模時使用,用到了單詞級別的和句子級別的注意力;後者在對新聞內容和評論間關係建模時使用,在捕獲了句子和評論的semantic affinity的同時,也學習到了句子和評論的注意力權重。


思考

未來工作

(1)將事實覈查網站或事實覈查相關專家的知識合併進來,以進一步指導模型得到check-worthy的新聞句子。

(2)研究如何將其他用戶的社交行爲作爲副信息引入,以幫助發現可解釋的評論。

(3)考慮發佈新聞的人的可信度,以進一步提高假新聞檢測模型的性能。


本文的研究方向很有新意,假新聞檢測的可解釋性是值得進一步研究的方向。這篇文章從新聞中的句子和用戶評論信息入手,給假新聞分類器提供瞭解釋性。未來可以考慮能否從別的角度出發,處理可解釋性的問題。例如,本文在建模時只考慮了一篇文章,能否利用已經被證實爲真/假的其他文章,或者考慮使用由其他可信度非常高的機構發佈的和待判斷文章描述事件相似的文章,來爲待判斷文章的分類結果提供可解釋性。


References

[1] Ma, J.; Gao, W.; Mitra, P.; Kwon, S.; Jansen, B. J.; Wong, K.-F.; and Cha, M. 2016. Detecting rumors from microblogs with recurrent neural networks. In Ijcai, 3818–3824.

[2] Ma, J.; Gao, W.; and Wong, K.-F. 2017. Detect rumors in microblog posts using propagation structure via kernel learning. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 708–717.

[3] Tausczik, Y. R., and Pennebaker, J. W. 2009. The Psychological Meaning of Words: LIWC and Computerized Text Analysis Methods. Journal of Language and Social Psychology 29(1):24–54.

[4] Stone, P. J.; Bales, R. F.; Namenwirth, J. Z.; and Ogilvie, D. M. 1962. The general inquirer: A computer system for content analysis and retrieval based on the sentence as a unit of information. Behavioral Science 7(4):484–498.

[5] Sonia Castelo, Thais Almeida, Anas Elghafari, Aécio Santos, Kien Pham, Eduardo Nakamura, and Juliana Freire. 2019. A Topic-Agnostic Approach for Identifying Fake News Pages. In Companion Proceedings of The 2019 World Wide Web Conference (San Francisco, USA) (WWW ’19). ACM, New York, NY, USA, 975–980. https://doi.org/10.1145/3308560.3316739

[6] Kai Shu, Deepak Mahudeswaran, Suhang Wang, Dongwon Lee, and Huan Liu. 2018. FakeNewsNet: A Data Repository with News Content, Social Context and Dynamic Information for Studying Fake News on Social Media. arXiv preprint arXiv:1809.01286 (2018).

[7] Kai Shu, Amy Sliva, Suhang Wang, Jiliang Tang, and Huan Liu. 2017. Fake News Detection on Social Media: A Data Mining Perspective. KDD exploration newsletter (2017).

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章