論文題目：Fake News Detection on Social Media: A Data Mining Perspective

論文來源：KDD 2017 美國亞利桑那州立大學, 美國密歇根州立大學

論文鏈接：https://arxiv.org/abs/1708.01967

關鍵詞：虛假新聞檢測，社交媒體，綜述

1 摘要

社交媒體對於新聞來說是一把雙刃劍。既有利於高質量新聞的獲取和傳播，也有利於虛假新聞的廣泛傳播。

社交媒體上的假新聞檢測有着獨有的特點，使得傳統的新聞檢測算法不適用於虛假新聞的檢測。

虛假新聞的特點有：

（1）故意寫出來的，以誤導讀者去相信虛假信息，因此基於新聞內容很難檢測出來。因此需要輔助信息，例如用戶在社交媒體上的社交行爲，來幫助我們進行決策。

（2）利用這些輔助信息是有挑戰性的，因爲用戶與假新聞交互產生的數據是巨大的、不完整的、無結構的並且有噪聲。

本文聚焦於社交媒體上的虛假新聞檢測問題，進行綜述。包括心理學理論和社會學理論層面的虛假新聞的特點，虛假新聞的評估度量和已有的數據集。本文還討論了社會媒體上的虛假新聞檢測的相關的研究領域、開放的問題和未來的研究方向。

2 引言

（1）新聞在社交媒體上的興起

隨着人們越來越多地通過社交媒體平臺進行交互，越來越多的人傾向於從社交媒體上而不是從傳統的新聞機構來尋找新聞。這是因爲社交媒體平臺有着天然的特性：（1）和傳統的新聞媒介（報紙，電視）相比，在社交媒體上可以及時並方便地獲取新聞；（2）在社交媒體上對新聞進行分享、評論、與他人討論顯得更加簡單方便。

（2）虛假新聞的危害

儘管社交媒體有着上述優點，但是社交媒體上新聞的質量卻不如傳統新聞機構上的新聞。社交媒體上新聞可以快速方便地進行傳播的特點，也有助於了虛假新聞的快速傳播，這對個人和社會都產生了一系列負面影響：

1）大多數虛假新聞比真正的主流新聞傳播範圍更廣；

2）虛假新聞有意的說服讀者去接收有偏差的或虛假的信息。虛假新聞通常是被操縱者所利用，來傳遞政治信息或者相關影響；

3）假新聞改變了人們解讀和迴應真實新聞的方式。例如，有的假新聞單純是爲了引起人們的懷疑，干擾他們區分真實的能力。

爲了減弱假新聞的負面影響，營造良好的社會氛圍和新聞生態環境，研究出在社交媒體上自動檢測出虛假新聞的方法是十分有必要的。

（3）在社交媒體上進行虛假新聞檢測的挑戰

雖然假新聞本身並不是一個新的研究問題，但是在社交媒體上的網絡生成新聞的興起爲假新聞賦予了強大的力量，使其可以挑戰傳統規範的新聞。社交媒體上的虛假新聞有以下一些特點，使得自動化的檢測富有挑戰：

1）假新聞是故意創作出來的，目的就是爲了誤導讀者，因此基於新聞內容很難簡單地檢測出來。

假新聞的內容在主題上、風格上和社交平臺上具有多樣性，並且使用多樣的語言風格扭曲事實。例如，虛假新聞可能會引用真實的信息來支持一個非事實的主張。因此，手工選取的特徵和針對特定數據的文本特徵不能有效地用於假新聞的檢測。需要考慮其他的輔助信息來提高檢測能力，例如知識庫和用戶的社交行爲。

2）輔助信息的質量無法保證。假新聞通常與新出現的事件有關，由於缺乏確鑿的證據或主張，這些事件可能還沒有被現有的知識所證實。

3）用戶在社交媒體上和虛假新聞進行接觸產生的數據量巨大，並且數據不完整、無結構，還帶有噪聲。

（4）本文貢獻

本文將從兩個角度回顧假新聞檢測問題：特點和檢測。如圖 1所示，我們首先使用心理學和社會學的理論描述了假新聞檢測問題的背景，然後給出檢測方法。本文貢獻如下：

1）討論了假新聞的狹義和廣義的定義，進一步提出了社交媒體上的虛假新聞特有的特性；

2）對現有的假新聞檢測方法進行了綜述，將其分爲不同的類別；

3）討論了一些開放的問題並給出了社交媒體上的虛假新聞檢測未來的研究方向。

3 假新聞的特點

本節介紹和假新聞有關的基本社會學和心理學理論，並且社交媒體引入的更高級的模式。首先討論虛假新聞的定義，然後從不同的角度描述傳統媒體上的虛假新聞，接着引出虛假新聞在社交媒體上的新模式。

3.1 虛假新聞的定義

虛假新聞幾乎是和印刷機在同一時段誕生的（1439年），但是還沒有一個針對虛假新聞的公認的定義。本文比較了一些論文中給出的廣泛使用的虛假新聞的定義，並且給出了本文的定義。

（1）狹義的定義

有意的、被證實爲錯誤的並且會誤導讀者的新聞文章。

這一定義中有兩個關鍵特徵：真實性和目的性。

（2）廣義的定義

既不聚焦於真實性也不聚焦於目的性。一些文獻將諷刺性的新聞視爲假新聞，儘管諷刺新聞往往以娛樂爲導向，但是向讀者暴露出了欺騙性，並且內容是虛假的。還有一些文獻將有欺騙性的新聞視爲虛假新聞。

（3）本文的定義

本文使用的是狹義的定義，定義如下：

虛假新聞是有意圖的並且被證實是假的新聞文章。

採用狹義的定義的原因有三點：

1）假新聞的潛在意圖提供了理論和實踐價值，使得我們能深入地理解和分析。

2）任何用於事實驗證的方法都可以應用到狹義概念的假新聞中，也可以用於廣義概念的假新聞。

3）這一概念可以消除假新聞和本文未考慮的相關概念之間的歧義。下面列出的概念不是本文定義範圍內的假新聞：

沒有誤導意圖且不會被錯認爲是事實的諷刺新聞；
與新聞事件無關的謠言；
不易被證實爲是真還是假的陰謀論；
無意間創造出的錯誤信息；
僅僅出於樂趣或者是爲了欺騙目標個體的惡作劇。

3.2 傳統新聞媒體上的虛假新聞

假新聞本身並不是一個新問題，隨着新聞媒介的發展，假新聞也從在報紙傳播發展爲廣播/電視傳播，再到如今的在線新聞和社交媒體傳播。傳統的虛假新聞指的是社交媒體之前的媒介，對其產生和傳播起到重要作用。

接下來將闡述和假新聞有關的心理學和社會學理論。

（1）虛假新聞的心理學基礎

人們天然就不擅長區分假新聞和真新聞。一些心理學和認知學的理論可以解釋這一現象和假新聞的影響力。

傳統的假新聞主要利用讀者的個人弱點來對其進行攻擊。主要有兩個因素，使得讀者天然地易受假新聞的攻擊：

1）樸素實在論：人們傾向於認爲他們對現實的感知是正確的，而不同意的人則被認爲是物質的、非理性的或有偏見的；

2）確認偏差：人們更願意接受符合他們世界觀價值觀的事。

由於人們天然有這些認知偏差，因此虛假新聞會被人們認爲是真實的。而且這種錯誤認識一旦形成就很難更正。心理學的研究表明，給出事實試圖更正錯誤信息不僅不能減少錯誤認知，有時還會加劇錯誤認知。

（2）虛假新聞生態系統的社會學基礎

前景理論（prospect theory）將決策描述成一個過程，在這個過程中，人們根據相對於他們當前狀態的得失做出選擇。人們在傳播新聞信息時，傾向於選擇“社交安全（social safe）”的觀點，儘管分享的新聞是假新聞。

這種假新聞互動的理論可以從經濟學博弈的角度進行建模。我們將新聞的生成和消費週期構建成一個兩人博弈。在這個信息生態系統中，我們假定有兩個玩家：發佈者和消費者。新聞的發佈過程建模成從原始信號 $s$ 到新聞 $a$ 的映射，映射過程有一個失真偏差 $b$ ，例如： $s \xrightarrow{b} a$ ， $b = [-1, 0, 1]$ 表示 $[left, no, right]$ 。

發佈者的效用有兩個角度：1）短期效用：最大化利潤的動機，與消費者的數量成正相關；2）長期效用：發佈者在新聞真實性上的聲譽。

消費者的效用由兩部分組成：1）信息的效用：獲得真實且無偏差的信息，通常需要額外的投資成本；2）心理學效用：得到滿足他們先驗觀點和社交需要的新聞，例如驗證偏差和前景理論。

發佈者和消費者都希望在新聞的消費過程中最大化他們的整體效用。當虛假新聞發生的時候，也就是短期效用在發佈者整體效用中占主導地位，心理學效用在消費者整體效用中占主導地位，並且達到均衡。

3.3 社交媒體上的虛假新聞

本節將介紹社交媒體上的虛假新聞具有的特性。注意，之前提到的傳統虛假新聞的特性也適用於社交媒體上的虛假新聞。

（1）社交媒體上以傳播信息爲目的的惡意賬號

雖然社交媒體上的大多數用戶是正常的，由於製造社交媒體賬號的低成本，有一些用戶可能是虛假用戶，甚至可能是機器人。

社交機器人（social bot）指的是該社交媒體賬號由計算機程序控制，可以自動地生成內容並和社交媒體上的其他人進行交互。如果社交機器人有意地複製、傳播假新聞，那麼它就是一個惡意賬號。

網絡水軍（troll）指的是真實的人類用戶，目的是爲了擾亂網絡社區的秩序、煽動網民情緒（例如憤怒，恐懼）。水軍也在虛假新聞傳播上發揮了重要作用。

電子人用戶（cyborg user）可以使用自動化和人工輸入相結合的方式傳播假新聞。cyborg賬戶由人類註冊並僞裝，並設定自動程序在社交媒體上進行活動。人與機器間的輕鬆切換爲cyborg用戶提供了傳播虛假新聞的獨有機會。

總的來說，這些持續活躍的或間歇活躍的社交媒體上的惡意賬戶成爲了假新聞傳播的強有力的源頭。

（2）迴音壁效應

新聞可以在社交媒體主頁上進行顯示，因此消費者會有選擇地接觸到某些類型的新聞，這加大了消除假新聞的挑戰。

例如，Facebook的用戶總是關注志同道合的人，因此會接收到他們喜歡的新聞。因此社交媒體上的用戶往往會形成志趣相投的羣體，在這些羣體間的觀點不同，這就容易形成迴音壁效應。

迴音壁效應在媒體上是指在一個相對封閉的環境上，一些意見相近的聲音不斷重複，並以誇張或其他扭曲形式重複，令處於相對封閉環境中的大多數人認爲這些扭曲的故事就是事實的全部。

迴音壁效應和以下的心理學因素有關：1）社交信譽：如果其他人認爲消息來源是可信的，人們更有可能也相信消息來源是可信的，尤其是在沒有足夠的信息證明消息來源的真實性時；2）頻率啓發式：消費者天然地傾向於喜歡他們經常聽到的信息，儘管是虛假新聞。

研究表明，增加對某一觀點的接觸就足以對其產生積極的看法。在迴音壁中，用戶持續地分享和消費相同的信息。因此，在有限的信息生態系統中，迴音壁效應創造出了不相交的同質的社區。研究表明同質社區稱爲信息傳播的主要源頭，這進一步加劇了意見的兩極分化。

4 假新聞檢測

前面的章節給出了傳統假新聞的特性以及社交媒體上假新聞的特性，基於這些特性，我們接着進行問題的定義並總結假新聞檢測的方法。

4.1 問題定義

引入假新聞關鍵組件的定義，然後給出假新聞檢測的規範定義。

（1）基本符號定義

1） $a$ 表示一篇新聞文章，它由兩部分組成：發佈者和內容。發佈者 $\vec{p_a}$ 包括一組描述原始作者的特徵集合，例如姓名、領域、年齡和其他屬性。內容 $\vec{c_a}$ 包括表示新聞文章的屬性信息，例如標題、文本、圖片等。

2）將社交新聞活動定義爲元組的集合 $\mathcal{E} = {\{e_{it}}\}$ ，表示新聞隨時間在 $n$ 個用戶 $\mathcal{U} = {\{u_1, u_2, ..., u_n}\}$ 間傳播的過程，以及用戶在社交媒體上發佈的關於新聞文章 $a$ 的帖子 $\mathcal{P} = {\{p_1, p_2, ..., p_n}\}$ 。活動 $e_{it} = {u_i, p_i, t}$ 表示用戶 $u_i$ 在時間 $t$ 使用了 $p_i$ 來傳播新聞文章 $a$ 。

若文章 $a$ 沒有任何活動，則 $t=NULL$ ， $u_i$ 就表示發佈者。

（2）假新聞檢測

給定對於新聞文章 $a$ 在 $n$ 個用戶間的社交新聞活動 $\mathcal{E}$ ，假新聞檢測任務就是預測 $a$ 是否是一個假新聞（二分類問題）。例如， $\mathcal{F}: \mathcal{E}\rightarrow {\{0, 1}\}$ ， $\mathcal{F}$ 就是我們想要學習到的預測函數：

接下來，我們提出一個包括兩個階段的用於假新聞檢測的數據挖掘框架：1）特徵的抽取；2）模型的構建。

特徵抽取階段目的是用數學結構表示新聞內容和相關的輔助信息，模型構建階段時構建機器學習模型以基於特徵表示更好地區分出虛假新聞。

4.2 特徵抽取

傳統新聞媒體上的假新聞檢測主要依賴於新聞的內容，然而在社交媒體中，抽取出社交相關的輔助信息有助於檢測出假新聞。因此，我們給出瞭如何從新聞內容和社交上下文中抽取和表示有用特徵的細節。

4.2.1 新聞內容特徵

新聞內容特徵 $\vec{c_a}$ 描述了和一篇新聞有關的元信息。可表示新聞內容的屬性有：

源（source）：新聞文章的作者或發佈者；
標題（headline）：吸引讀者注意力，描述文章的主題；
內容（body text）：描述新聞故事的細節，反映發佈者的角度；
圖像/視頻：新聞主體的一部分

基於這些原始的內容屬性，可以構建出不同種類的特徵表示以抽取出假新聞的特性。一般將新聞內容特徵分爲基於語言的（linguistic-based）和基於視覺的（visual-based）兩類：

（1）基於語言的

假新聞是爲了經濟和政治目的故意創造出來的非客觀的信息，所以通常包含主觀的和有煽動性的語言，例如標題黨。

語言學的特徵可以捕獲不同的寫作風格和煽動性的標題，以檢測出假新聞。可從新聞文章的不同層面抽取出這些特徵，例如字符級別、單詞級別、句子級別和文檔級別。

爲了捕獲到假新聞和真新聞不同角度的特徵，已有的工作同時利用普通的語言學特徵和特定領域的語言學特徵。

普通的語言學特徵常用於表示文檔以用於不同任務下的自然語言處理，這類語言學特徵有：

1）詞典特徵：包括字符級別的和單詞級別的，例如總單詞、每個單詞的字符、詞頻和唯一的單詞；

2）句法特徵：包括句子級別的特徵，例如虛詞（function words）和短語的頻率，或者標點和POS（part-of-speech）標籤。

特定領域的語言學特徵通常和新聞領域相對齊，例如引證的單詞、外部鏈接、圖的數量和圖的平均長度等等。此外，謊言檢測的特徵也可以從寫作風格中捕獲到是否有欺騙的信息，以用於假新聞的檢測。

（2）基於視覺的

視覺信息對於假新聞的傳播很重要。使用分類模型可以基於不同的用戶級別、推文級別和手工選取的特徵來識別出虛假的圖像。

視覺特徵包括清晰度分值、一致性分值、相似度分佈直方圖、多樣性分值和聚類分值。統計學特徵包括計數, image ratio, multi-image ratio, hot image ratio, long image ratio等等。

4.2.2 社交上下文特徵

社交行爲表示了新聞隨着時間的擴散，爲推斷該新聞的真實性提供了有意義的輔助信息。目前幾乎沒有論文使用社交上下文特徵進行假新聞的檢測，本文給出在相似的研究領域（例如謠言真實性識別）使用到的類似的特徵。本文主要考慮三個角度：用戶、生成的帖子和網絡。

（1）基於用戶的

正如第 3.3節所述，假新聞很有可能是由非人類的賬號創造並傳播的。因此，使用基於用戶的特徵（用戶在社交網絡上的社交行爲）捕獲用戶的信息和特點有助於假新聞的檢測。

這些特徵可以分爲不同的級別：個人級別和羣組級別。

1）個人級別的特徵：例如用戶註冊年齡，關注的人數和粉絲數，發佈的帖子數等等；

2）羣組級別的特徵：和新聞有關的一組用戶整體的特徵。前提是用戶根據特點形成了不同的社區，並且可以使用羣組級別的特徵進行描述。常用的特徵來自於聚合個體級別的特徵，例如認證用戶的比例、用戶的平均粉絲數等。

（2）基於帖子的

用戶通過社交媒體上的帖子來表達出他們對於假新聞的情緒和觀點，例如懷疑觀點、有煽動性的反應等。因此，抽取出基於帖子的特徵有助於假新聞的檢測。

基於帖子的特徵聚焦於識別有用的信息，從相關帖子的多樣的角度推斷出新聞的真實性。這些特徵可分爲：帖子級別、羣組級別和時序級別。

1）帖子級別的特徵

之前提到的基於語言學的特徵和一些針對新聞內容的嵌入方法也可以用於帖子的特徵。

也有一些帖子獨有的特徵，例如立場、主題和公信力。

立場特徵：用戶對新聞的立場，例如支持、否認；
主題特徵：可使用主題模型（eg. LDA）進行抽取；
公信力特徵：帖子的可信度

2）羣組級別的特徵

使用羣體智慧從所有的和特定新聞文章相關的帖子中聚合得到特徵信息。例如，公信力打分的均值可作爲羣組級別的公信力分值。

3）時序級別的特徵

考慮時序變化的帖子級別的特徵值。使用無監督的嵌入方法，例如RNN可以捕獲到帖子隨時間的變化。

（3）基於網絡的

社交網絡上的用戶根據興趣、主題和關係形成了不同的網絡。根據之前提到的迴音壁效應，抽取出基於網絡的特徵也有助於假新聞檢測。

可以構建出不同類型的網絡：

1）立場網絡：節點表示所有和某一新聞相關的帖子，邊表示這些帖子表達的立場間的相似度；

2）共現網絡：基於用戶行爲構建，計數用戶是否發佈了和同一新聞相關的帖子；

3）交友網絡：表示發佈了相關帖子的用戶間的關注和被關注信息。

4）擴散網絡：是交友網絡的擴展，記錄了新聞的傳播軌跡，節點表示用戶，邊表示他們之間的信息擴散路徑。也就是說，用戶 $u_i, u_j$ 若滿足這兩個條件： $u_j$ 關注了 $u_i$ 且 $u_j$ 在 $u_i$ 之後發佈了和給定新聞有關的帖子，則 $u_i, u_j$ 間存在擴散路徑。

當構建好了這些網絡後，就可以應用現有的網絡度量作爲特徵表示。例如，度和聚類係數可用於表示擴散網絡和交友網絡。也有一些方法使用SVD或網絡傳播算法得到隱層的節點嵌入特徵。

4.3 模型的構建

上一節介紹了從新聞文本和社交上下文抽取用於假新聞檢測的特徵。本節將討論模型構建過程的細節。我們將已有的模型基於他們主要的輸入源，分類爲：新聞內容的模型和社交上下文模型。

4.3.1 新聞內容模型(news content models)

本節介紹新聞內容模型，主要依賴於新聞內容特徵和現存的事實源來對假新聞分類。分爲兩類：基於知識的和基於風格的。

（1）基於知識的

基於知識的方法旨在利用外部資源對新聞內容中提出的主張進行事實覈查。目標是給某一主張分配一個真實值打分。

現有的事實覈查方法可以分類爲：面向專家的、面向衆包的和麪向計算的。

1）面向專家的事實覈查：依賴於領域專家對相關數據和文檔的分析，以判斷主張的可信度。但這一方法需要專家知識並且耗時，不具有高效性和高可擴展性。

2）面向衆包的事實覈查：利用到了羣體智慧。讓正常人對新聞內容進行標註，然後聚合這些標註得到對新聞可信度的整體評估。

3）面向計算的事實覈查：目的是提供一個自動可擴展的系統對真實和虛假的主張進行分類。先前的面向計算的事實覈查方法嘗試解決兩個主要問題：1、識別值得檢查的助長；2、辨別事實主張的真實性。針對特定主張的事實覈查很大程度上依賴於外部資源來確定某一主張的真實性。例如使用知識圖譜（KG）來檢查新聞內容中出現的助長是否是KG中已存在的事實。

（2）基於風格的

基於風格的方法是通過捕獲新聞內容寫作風格中的操縱者，從而實現虛假新聞的檢測。有兩類基於風格的典型的方法：面向欺騙的、面向客觀的。

1）面向欺騙的：從新聞內容中捕獲到欺騙性的陳述或主張。最近，一些NLP模型從深層句法、修辭結構兩個方面來識別欺詐信息。也有深層網絡模型方法應用到了CNN對假新聞的可信度進行分類。

2）面向客觀的：捕獲到表明新聞內容客觀性降低的風格信號，例如黨派的風格（hyperpartisan styles）和黃色新聞（yellow-journalism）。基於語言學的特徵可用於檢測黨派相關的文章。黃色新聞指的是沒有經過認真調研的新聞，僅依賴於標題（eg. 標題黨），傾向於誇張、煽動和引起恐慌。

4.3.2 社交上下文模型

社交媒體爲研究人員提供了附加的知識作爲增強新聞內容模型的補充。社交上下文模型（social context models）包括分析相關的用戶社交行爲，從多樣的角度捕獲這些輔助信息。我們將現有的社交上下文建模方法分成兩大類：1）基於立場的；2）基於傳播的。

注意，目前幾乎沒有什麼假新聞檢測方法使用社交上下文模型，因此本文引入了使用社交媒體的用於謠言檢測的相似的方法，這些方法有應用到假新聞檢測任務上的潛力。

（1）基於立場的

利用了用戶對於相關帖子內容的觀點，以推斷出原始新聞文章的可信度。用戶帖子的立場可以表示爲明確的和含蓄的。

明確的立場是較爲直接的表達，例如點贊和點踩。含蓄的立場可以自動地從社交媒體帖子中進行抽取，判斷用戶對於目標實體、事件或看法是支持、中立還是反對。

已有的立場分類模型主要依賴於人工設計的語言學特徵或單一帖子的嵌入特徵來進行立場的預測。主題模型，例如LDA，可以從主題中學習得到隱藏的立場的信息。使用這些方法，我們可以基於相關帖子的立場值推斷出新聞的可信度。

Tacchini等人使用“like”立場信息，構建了用戶和Facebook帖子組成的二部圖；並基於這一網絡提出半監督的概率模型以檢測出帖子是惡作劇的可能性。Jin等人使用主題模型學習得到隱藏的觀點，並進一步利用這些觀點學習得到相關帖子和新聞內容的可信度。

（2）基於傳播的

基本假設是新聞事件的可信度和相關社交媒體帖子的可信度高度相關。

傳播過程可以建立成同質的和異質的可信度網絡。同質的可信度網絡由單一類型的實體組成，例如帖子或事件。異質的可信度網絡包括不同類型的實體，例如帖子、子事件和事件。

Gupta等人提出了類似PageRank的可信度傳播算法，在一個三層的user-tweet-event異質信息網絡上，編碼用戶的可信度和推文的含義。Jin等人提出包含新聞角度的三層的層次網絡，利用圖優化框架來推斷出事件的可信度。最近，也有學者在構建推文間異質的可信度網絡時引入了對立的關係，以指導對其可信度的評估過程。

5 評價檢測效果

本節介紹如何評估假新聞檢測算法的效果。將介紹此任務的可用數據集以及評估度量方法。

5.1 數據集

一些公開的數據集如下所示：

（1）BuzzFeedNews

2016年美國大選期間，發佈在Facebook上的來自9家機構的新聞。有1627個文章，其中826個是主流的，356個是左派的，545個是右派的。

https://github.com/BuzzFeedNews/2016-10-facebookfact-check/tree/master/data

（2）LIAR

從事實覈查網站PolitiFact上收集的，包括12836個人工標註的短文本。這些文本來自多樣的語境，例如新聞稿、電視採訪、電臺採訪、競選演說等。新聞的可信度分爲：pants-fire, false, barely-true, half-true, mostly true, true。

https://www.cs.ucsb.edu/ william/data/liar dataset.zip

（3）BS Detector

使用用於檢測新聞真實性的瀏覽器擴展BS detector收集得到的數據。

https://www.kaggle.com/mrisdal/fake-news

（4）CREDBANK

大規模的衆包數據集，大約有60 million的推文，覆蓋範圍是從2015年10月開始的96天。

http://compsocial.github.io/CREDBANK-data/

表 1比較了這些數據集，並標出了可以從每個數據集中抽取出來的特徵。可以看出，沒有現存的數據集可以提供所有的特徵。

而且這些數據集有特定的限制，將其應用到假新聞檢測是有挑戰的：

（1）BuzzFeedNews只包含了每篇新聞的標題和文本，並且新聞文章的來源有限。

（2）LIAR包含了很短的文本陳述，而不是完整的新聞內容。而且這些陳述來自於多樣的演講者，而不是新聞發佈者，可能含有不是假新聞的陳述。

（3）BS Detector中的數據是使用新聞覈查工具得到的。由於標籤不是由人類專家提供的，因此使用這些數據訓練得到的模型學習到的是BS Detector的參數，而不是專家標註的ground truth假新聞的參數。

（4）CREDBANK是用於推文可信度評估的，因此該數據集中的推文不是針對特定新聞文章的真實的社交行爲。

爲了解決現存的假新聞檢測數據集的問題，作者收集了針對社交媒體上假新聞檢測的數據集FakeNewsNet，包含所有提到的新聞內容和社交上下文特徵，並且有ground truth假新聞標籤。

https://github.com/KaiDMML/FakeNewsNet

5.2 評估度量

絕大多數現有的方法將假新聞檢測問題看成是分類問題，目的是預測一個新聞文章是否是假的：

TP：預測文章是假的，並且預測對了；
TN：預測文章是真的，並且預測對了；
FN：預測文章是真的，但是預測錯了；
FP：預測文章是假的，但是預測錯了。

（1）定義以下度量，值越高越好：

（2）ROC曲線（Receiver Operating Characteristics）通過權衡FPR（False Positive Rate）和TPR（True Positive Rate）值，比較了分類器的性能。FPR值作爲x軸，TPR值作爲y軸。TPR和FPR定義如下：

（3）基於ROC曲線，可以計算出AUC值（Area Under the Curve）。AUC值衡量了分類器將假新聞排在真新聞前面的整體表現。AUC定義如下：

其中 $r_i$ 是對第 $i_{th}$ 個新聞文章排名， $n_0(n_1)$ 是假（真）新聞的數量。AUC比accuracy更具有統計一致性和辨別性，它常用於不均衡的分類問題。例如在假新聞分類中，假新聞和真新聞的分佈是不均衡的。

6 相關領域

本節進一步討論了和假新聞檢測有關的研究領域。目的是通過簡要地解釋任務目標並突出流行的方法，指出這些領域和假新聞檢測的不同之處。

6.1 謠言分類

謠言指的是一條在傳播時其真實性尚未得到證實的消息。謠言的作用是讓一個模棱兩可的情況變得說得通（make sense），而其真實值可能是真的、假的或未證實的。

先前的用於謠言分析的方法聚焦於4個子任務：謠言檢測、謠言追蹤、立場分類和可信度分類。

（1）謠言檢測的目的是將一條信息分類成是或不是謠言；

（2）謠言追蹤的目的是收集並過濾討論特定謠言的帖子；

（3）謠言立場分類是識別出每個相關帖子的真實性；真實性分類試圖預測出謠言的真實值；

（4）謠言可信度分類是和假新聞檢測最相關的任務，這一任務高度依賴於其他子任務，需要從相關的帖子中抽取出立場和觀點。這些帖子可看成是決定謠言真實性的重要的傳感器。

區別：

謠言包括長期的，例如陰謀論，也包括短期的。假新聞指的是和公共新聞事件相關的且已被證實爲假的信息。

6.2 事實發現

事實發現是從多個有衝突的來源中檢測出事實。事實發現方法並不直接探究事實主張，而是依靠一組記錄了對象屬性的矛盾的資料來源，從而確定真實值。

事實發現的目的是同時確定來源的可信度和客觀的真實性。

在許多場景下，假新聞檢測都可以從事實發現方法中獲益：

（1）不同新聞來源的可行度可用於推斷出其所發表的新聞的真實性；

（2）相關的社交媒體的帖子可以建模成社交反應來源（social reponse sources），以更好地判斷主張的可信度。

在社交媒體場景下，要將事實發現應用到假新聞檢測中，還需要考慮一些問題：

（1）絕大多數事實發現的方法聚焦於處理SPO（Subject-Predicate-Object）元組形式的有結構的輸入，然而社交媒體數據是高度無結構的並且帶有噪聲；

（2）當假新聞是剛剛發佈的並且只有很少的新聞機構發佈了這一新聞時，事實發現方法不能很好的應用於假新聞的檢測，因爲此時沒有足夠多的和該假新聞相關的社交媒體帖子來作爲附加源。

6.3 標題黨檢測

標題黨指的是引人注目的讓人好奇的標題。

標題黨文章的正文通常有一定的組織形式並且和標題相似度不高。研究者通過識別標題和新聞內容的不一致性，可以檢測出假新聞。儘管不是所有的假新聞都包含標題黨，特定的標題黨可視爲重要的指示器，並且可利用多樣的特徵幫助檢測出假新聞。

6.4 機器人檢測(Spammer and Bot Detection)

Spammer檢測的目的是捕獲相互配合發起多種攻擊的有害用戶。現有的方法主要依賴於從用戶行爲和社交網絡信息中抽取出特徵。

此外，social bots也加速了假信息的傳播，因爲它們自動地轉發一些推文而不驗證其真實性。社交機器人帶來的主要挑戰是，它們會給人這一信息非常受歡迎並且已被很多人認可的假象，然後利用了迴音壁效應，對假新聞的傳播起到積極作用。先前的用於機器人檢測的方法是基於社交網絡信息的。

spammer和social bot檢測中對於有害中戶的檢測可以用於假新聞檢測中。

7 開放的問題和未來的研究方向

本節將介紹假新聞檢測領域的開放問題和未來的研究方向。如圖 2所示，作者將研究方向分爲了4類：面向數據的、面向特徵的、面向模型的和麪嚮應用的。

（1）面向數據的

面向數據的假新聞檢測研究聚焦於不同類別的數據特徵，例如：數據集、時間的和心理學的。

1）從數據集的角度，我們上面提到過還沒有包括了可抽取出所有相關特徵的benchmark dataset。因此，研究方向之一就是構建一個可解釋的大型的假新聞benchmark dataset。

2）從時間的角度來看，社交媒體上的假新聞傳播呈現出與真實新聞不同的獨特的時間模式。因此，另一個有意義的研究方向就是進行假新聞的早期檢測，目的是在假新聞的傳播過程中給出早期的警告信號。

3）從心理學的角度來看，心理學文獻對假新聞從不同的方面進行了定性的探討，但是證實這些心理學因素的定量的研究還很有限。例如，如何捕獲迴音壁效用，如何利用這一模式以用於社交媒體上的假新聞檢測。

4）此外，從新聞數據中進行意圖檢測也是有前景的研究方向。現有的大多數假新聞研究僅聚焦於檢測真實性，而忽視了假新聞的意圖。

（2）面向特徵的

面向特徵的假新聞研究目的是從多個數據來源中確定可用於假新聞檢測的有效的特徵。正如我們在文中所說的那樣，有兩個主要的數據源：新聞內容和社交上下文。

1）從新聞內容的角度來看，我們介紹了基於語言學和基於視覺的技術來從文本信息中抽取出特徵。

值得注意的是，語言學特徵已在許多NLP任務中得到了廣泛應用，例如文本分類和聚類、欺詐檢測、作者識別等，但假新聞的特性還沒有被完全理解。

視覺特徵已被證明有助於假新聞的檢測，但是很少有研究利用有效的視覺特徵。而且最近有一些研究可以操縱視頻片段，合成高質量的視頻。因此，區分真假視覺內容變得越來越有挑戰性，需要更高級的基於視覺的特徵以進行假新聞檢測的研究。

2）從社交上下文（social context）的角度來看，我們介紹了基於用戶的、基於帖子的和基於網絡的特徵。

現有的基於用戶的特徵主要聚焦於用戶的一般信息（profiles），而不是區別不同類型的賬戶並抽取特定用戶的特徵。

基於帖子的特徵可以使用其他的方法，例如CNN，來更好地捕獲人們對於假新聞的觀點和反應。

基於網絡的特徵被提取來表示不同類型的網絡是如何構造的。需要在這一基礎工作上進行擴展：

根據相關用戶和帖子之間的不同方面的關係，如何構建其他網絡；
其他更高級的網絡表示方法，例如網絡嵌入。

（3）面向模型的

已有的大多數方法聚焦於抽取多樣的特徵，並將這些特徵合併到有監督的分類模型中，例如樸素貝葉斯、決策樹、logistic迴歸、KNN和SVM，然後選取分類效果最好的分類器。

有一些研究構建了更復雜更有效的模型以更好地利用抽取出來的特徵，例如聚合方法、概率方法、集成方法、映射方法。

我們認爲有前景的研究方向如下：

1）聚合方法中對不同的特徵表示進行加權，並優化特徵的權重；

2）假新聞可能將真實陳述和虛假的主張進行混合，因此使用概率模型而不是二分類對假新聞進行分類可能會更好；

3）考慮單一特徵會使模型在性能上受限。集成的方法可以結合多個弱分類器以學習到一個強分類器，比單獨使用任何一個分類器的效果都要好。可對新聞內容和社交上下文特徵進行集成建模。

4）假新聞內容和社交上下文信息在原始的特徵空間中可能是有噪聲的。映射的方法可以學習到原始特徵空間間（例如新聞內容特徵和社交上下文特徵）的映射函數，並且隱層的特徵空間也許更有助於分類。

5）此外，大多數方法都是有監督的，需要預先標註好的假新聞數據集來訓練模型。未來可以考慮半監督的方法或無監督的方法。

（4）面向應用的

1）假新聞擴散

假新聞擴散描述了假新聞在社交媒體網站上的傳播模式和傳播路徑的特徵。有一些研究表明真實的信息和假信息在社交網絡間傳播時的模式不同。

同樣的，社交媒體上假新聞的傳播也有其自身的特點，例如社會維度、生命週期、傳播者身份等，需要進一步研究。

1、社會維度：指的是不同社區間社交關聯的若依賴性和異質性。不同的社會維度在政治、教育、體育等話題下的假新聞傳播中爲什麼以及如何發揮作用的，值得研究。

2、生命週期：由於人們的注意力和反應是隨時間變化的，假新聞的傳播郭晨也有不同的階段和生命週期。研究假新聞的生命週期可以更深刻地理解某一故事是如何從普通的公共話語中傳播開來的。追蹤假新聞的生命週期需要記錄假新聞擴散的關鍵軌跡，也需要對特定的假新聞報道過程進行進一步調查，例如基於圖的模型和基於進化（evolution-based）的模型。

3、傳播者身份：識別關鍵的傳播者也是十分重要的。可以根據立場和真實性識別出關鍵的傳播者。

從立場角度來說，傳播者可能是對假新聞呈反對觀點的澄清者，也可能是支持假新聞並勸說別人也相信的勸說者。

從真實性角度來說，傳播者可能是人類、bot或cyborg。需要進一步的研究以更好地檢測出用於傳播假新聞的惡意賬號。

2）假新聞的介入（intervention）

目的是通過採取主動介入的方法，以最小化假新聞的傳播範圍，從而減小假新聞的影響。

主動的假新聞介入方法有：

1、移除惡意賬戶

2、用真實的新聞讓用戶免疫，改變可能已經被假新聞影響的用戶的認知。已有研究使用基於內容的介入和基於網絡的介入方法，用於假信息的介入。之前提到的傳播者檢測方法也可用於特定用戶的檢測，例如找到說服者使其停止假新聞的傳播，找到澄清者最大化對應的真實新聞的影響範圍。

8 總結

本文通過對現有的文獻進行回顧，對假新聞的檢測問題進行了探討，分爲兩個階段：表徵和檢測。

在表徵階段，我們提出了假新聞在傳統媒體和社交媒體上的基本的概念以及規則。

在檢測階段，我們從數據挖掘的角度回顧了已有的假新聞檢測方法，包括特徵的抽取和模型的構建。

我們還進一步討論了假新聞檢測領域的數據集、驗證度量和未來有意義的研究方向，並將此領域擴展到了其他的應用中。

【論文翻譯虛假新聞檢測綜述 KDD 2017】Fake News Detection on Social Media: A Data Mining Perspective

文章目錄