【論文翻譯 假新聞檢測綜述 HICSS 2019】Can Machines Learn to Detect Fake News? A Survey Focused on Social Media

論文題目:Can Machines Learn to Detect Fake News? A Survey Focused on Social Media

論文來源:HICSS 2019,Proceedings of the 52nd Hawaii International Conference on System Sciences

論文鏈接:https://www.researchgate.net/publication/330364905_Can_Machines_Learn_To_Detect_Fake_News_A_Survey_Focused_on_Social_Media

關鍵詞:假新聞檢測,社交媒體,機器學習,綜述

個人感覺這篇綜述沒有KDD 2017這篇好。
這篇翻譯也不是全都翻譯的,個人認爲有一些意義不大的部分就沒有翻譯。



1 摘要

本文參考了過去5年的關於社交媒體假新聞檢測的論文,目的是瞭解假新聞檢測的SOTA,找到解決此任務的最好的機器學習方法。

我們發現,目前最常用的假新聞自動檢測方法並不是使用了單一的經典的機器學習技術,而是通過神經網絡協調的經典技術的融合。


2 引言

本文基於過去5年發表的論文研究,綜合考慮了處理假新聞問題的不同角度。本文對假新聞檢測的機器學習方法進行了調研,聚焦於不同方法和技術的特性,以及用於檢測假新聞和檢測機器人的概念上的模型。

本文還給出了虛假信息、騙局、假新聞的定義,系統地回顧了使用機器學習和NLP技術檢測這些信息的方法。

最後總結概括了當前實現自動檢測假新聞的方法的研究挑戰。


3 Theoretical Reference

相關定義。


3.1 發佈者(Publisher)

本文將發佈者定義爲向公衆提供某一故事的實體。例如,發佈者可以是Twitter的用戶,可以是網上報紙的記者,或者是他自己網站的組織者。值得注意的是,發佈者可能是也可能不是某一故事的作者。

若發佈者是作者的話,可基於他對假信息的意圖對其進行分類;若發佈者不是作者,只是故事的傳播者,可將其分類爲機器人或正常的用戶。


3.2 內容(content)

內容是發佈者在故事中提供的主要信息部分。當發佈者發佈消息的瞬間,這一信息的真實性可能是真、假或未知的。如果真實性未知,則可分類爲謠言。

信息也可以分類爲事實、觀點或兩者的混合。基於觀點的信息和事實相比沒有確定的真假。事實的內容通常是發佈者的claim。claim的真實性檢測被稱爲自動事實驗證(automated fact-checking)。


3.3 Extra media

除了內容以外,故事也可能包含其他的媒體,例如圖像、視頻、音頻。如果用到的媒體和內容無關,則可能會加強讀者要閱讀內容的慾望,這就是標題黨現象。


3.4 假新聞的定義和其對社會的影響

本文使用的假新聞的定義爲:故意被創造出來的新聞文章且已證實爲假。

有些學者認爲機器人(bots)不利於信息的復原過程,因爲它們加劇了錯誤信息的傳播。但也有研究表明,機器人不僅可以加劇錯誤信息的傳播,同時也可以加劇真實信息的傳播。也就是說,機器人不是錯誤信息的傳播者,只是信息的傳播者,它們對信息沒有偏好,只是加劇了任意類型的信息的傳播。


4 社交媒體

絕大多數工作使用社交媒體作爲分析的主要來源。原因有:1)社交媒體的流行;2)這些平臺通常會提供API,方便數據的獲取;3)大多數報紙太嚴謹了,而且反應的是普遍的政治觀點,社交網絡上各種各樣的人們都可以發表個人的觀點;4)很少有報紙發佈假新聞或謠言。已經有一些社交媒體採取了措施來阻止假新聞的傳播。


5 機器學習

本節將介紹不同種類的模型、預處理技術和使用到的數據集。


5.1 公開數據集和挑戰

2017年有兩個公開的挑戰被提出:RumorEval和Fake News Challenge。前者有兩個子任務,一個是對新聞回覆的立場檢測,另一個是對新聞真假進行分類。後者是對新聞進行立場檢測,將新聞的回覆分爲同意、不同意、討論和不相關。

有一些網站可以進行人工的事實覈查,最流行的是snopes.com和factcheck.org。也有一些網站檢查特定領域的新聞真實性,例如政治領域的politifact.com。也有一些網站爲了搞笑、批判等,發佈明顯虛假的新聞,例如theonion.com。事實覈查可以作爲新聞真假的ground turth。

Wang等人提出了LIAR數據集,由公共人物的聲明組成,並從polifact.com網站上標註了其真實性。Zubiaga等人提出了謠言數據集PHEME,該數據集將推文分組成謠言流,並將它們和新聞事件關聯起來。


5.2 預處理

一些工作聚焦於通過拓撲探索來自動檢測謠言流的起始點。Sahana等人提出算法來解決這一問題[1],找到謠言新聞的起始點。他們還發現了這類推文的關鍵特徵,並在未來的工作使用這些特徵對推文進行預先的聚類,加速了虛假信息的分類。


5.3 NLP特徵

許多文獻使用情感分析對新聞的極性進行分類[2~6],有的使用情感詞典,有的使用情感分析作爲最終分類器的特徵,使用HMM或人工神經網絡來推斷出情感。

基於語法(syntax)的技術相對較少,大多數論文主要使用句法解析(parsing)、pos-tagging和命名實體類型。使用語義的方法較爲普遍。也有許多論文使用詞典作爲外部知識,根據感興趣的屬性創建單詞列表。例如,宣誓有關的單詞、主觀的單詞和情感單詞的詞典。經常使用的詞典有WordNet和LIWC(Linguist Inquiry and Word Count)。

在假新聞檢測領域另一個使用到語義的方法是語言模型的使用。一些論文使用n-grams作爲baselines,與他們提出的手工選取的特徵作比較。也有人使用n-grams作爲分類器的特徵。最近的兩篇論文[3, 7]使用詞嵌入進行語言建模,主要是使用無監督學習來構建分類器。


5.4 社交和內容特徵

對於分類器中使用到的特徵,我們基於這些特徵的來源對其進行分類:1)基於社交媒體屬性(#likes, #retweets, #friends)的特徵;2)基於新聞內容的特徵(標點, 詞嵌入, 單詞的情感極性)。

如文獻[8]中所說,許多經典的分類算法主要聚焦於語言學的角度。但是也有一些新方法在相同的內容上聚合了不同的特徵以得到更好的效果。例如網絡拓撲分析模型(Network Topology Analysis Models)和人工神經網絡(Artificial Neural Networks),從社交網絡預定義的數據結構中發掘出用戶間的連接和其他的元信息。

也有一些作者提出通過分析社交網絡上用戶間的交互行爲來對信息的真實性進行分類。隨着web2.0的發展以及羣體智慧的發展,可以從社交網絡用戶間的交互中利用羣體智能,用於假信息的檢測。

有學者提出了Ant 算法,Ant算法的工作方式很像蟻羣。新聞中噴灑了信息素,在獲取的數據附近存在信息素,算法一直運行到信息素蒸發,不斷預測和更新其錯誤率,直到信息素全部蒸發。該算法只將新聞分類爲正類或負類。

與其他經典方法、啓發式算法等相比,該方法的誤差率較低,是最優的。作者認爲通過修改其分類函數,可以將其用在檢測假新聞、hoax、謠言和虛假信息上。這是因爲大多數處理假新聞檢測的工作依賴於交互分析,並且這一算法已被證明在此任務上比經典方法有效,儘管它的實現會更加複雜。


5.5 模型

研究學者並沒有使用簡單經典的學習模型,如樸素貝葉斯、決策樹和SVM等,而是將這些方法結合以得到更準確更復雜的模型。

爲了實現這些組合,學者們使用近些年流行的模型——人工神經網絡(ANN)。


6 挑戰和未來研究方向

多模分類器:大多數新聞將視頻、圖片等媒體嵌入在了新聞內容中,但是有可能這些媒體和內容無關,也就是標題黨。有工作就聚焦於通過分析模因(memes)對推文進行分類,還可以對反覆出現的術語進行預標註,這可能有助於假信息的檢測。

另一個挑戰是:推文真實意圖的不確定性。社交網絡上的帖子存在隱喻、委婉語和諷刺等語言資源,因此對於人類讀者來說很容易理解帖子的意圖。但是機器很難去區分這些語言形式,只是對其進行標記或分類,或者是使用預定義的詞典或預分類的術語對其進行交叉覈查。因此,對於推文意圖的消歧,在未來值得繼續研究。


7 總結

文獻[3]提出了使用文本、社交、圖像想你想資源的基於注意力的ANN模型,並將其應道到了twitter和Weibo數據集,取得了75%的準確率。

作者認爲使用社會信息傳播作爲預處理步驟,非常有助於後續工作的開展,這是因爲預處理可以發現課增強分類能力的關鍵特徵,有助於發現傳播的起始點和謠言傳播者的預標註,還有助於從帖子中實體到外部上下文元素的映射。

檢測假信息的受歡迎的方法主要是機器學習方法。涉及組合分類器的方法實際上是神經網絡和經典分類算法的結合,重點詞彙條目作爲用於預測的主要特徵,還可以使用外部的上下文信息(例如 帖子的拓撲分佈,用戶信息和social media metrics等)作爲模型的初步流程步驟,以提高模型的性能。

文獻提出的方法中,NLP方法更多的是被當做初步的步驟而不是一個解決方案。

機器人的使用可以看成是信息傳播的催化劑,目的可能是好的也可能是壞的。當然,在未來的工作中,有很多方法可以改進它們的信息驗證特性,但這需要對我們在條目拓撲分析中看到的外部上下文元素進行大量的預處理。

作者認爲當前的處理假新聞自動檢測的SOTA方法是在機器學習技術上使用網絡分析的方法。


參考文獻

[1] Sahana V P, A. R. Pias, R. Shastri, and S. Mandloi, “Automatic detection of rumoured tweets and finding its origin,” pp. 607–612, IEEE, Dec. 2015.

[2] J. A. Ceron-Guzman and E. Leon-Guzman, “A Sentiment Analysis System of Spanish Tweets and Its Application in Colombia 2014 Presidential Election,” pp. 250–257, IEEE, Oct. 2016.

[3] Z. Jin, J. Cao, H. Guo, Y. Zhang, and J. Luo, “Multimodal Fusion with Recurrent Neural Networks for Rumor Detection on Microblogs,” pp. 795–816, ACM Press, 2017.

[4] N. Hassan, F. Arslan, C. Li, and M. Tremayne, “Toward Automated Fact-Checking: Detecting Check-worthy Factual Claims by ClaimBuster,” pp. 1803–1812, ACM Press, 2017.

[5] S. Vosoughi, M. . Mohsenvand, and D. Roy, “Rumor Gauge: Predicting the Veracity of Rumors on Twitter,” ACM Transactions on Knowledge Discovery from Data, vol. 11, pp. 1–36, July 2017.

[6] J. Ross and K. Thirunarayan, “Features for Ranking Tweets Based on Credibility and Newsworthiness,” pp. 18–25, IEEE, Oct. 2016.

[7] A. P. B. Veyseh, J. Ebrahimi, D. Dou, and D. Lowd, “A Temporal Attentional Model for Rumor Stance Classification,” pp. 2335–2338, ACM Press, 2017.

[8] N. J. Conroy, V. L. Rubin, and Y. Chen, “Automatic deception detection: Methods for finding fake news,” in Proceedings of the 78th ASIS&T Annual Meeting: Information Science with Impact: Research in and for the Community, ASIST ’15, (Silver Springs, MD, USA), pp. 82:1–82:4, American Society for Information Science, 2015.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章