論文閱讀:Fake News Detection on Social Media:A Data Mining Perspective

問題背景

當前的社交媒體由於具有成本低、訪問易、傳播快、社交參與度高等特點,吸引着越來越多的人從中獲取和消費新聞,但這也同時給假新聞的快速傳播創造了條件。對於社會,假新聞會擾亂整個新聞系統的生態,使得偏見深入人心;而對於每個個體,假新聞和真新聞的交織會讓人感到困惑,逐漸喪失分辨真僞的能力。爲了儘量減少假新聞給個人和社會帶來的消極影響,社交媒體上的假新聞檢測這一新興研究領域得到了越來越多的關注。

問題難點

和依靠傳統媒體進行傳播的假新聞相比,社交媒體上的假新聞具有一些全新的特點,這使得傳統的檢測算法難以高效地完成任務。這些挑戰一方面來源於新聞內容的刻意誘導,比如具有多樣的主題、風格、發佈平臺,甚至會假信息中帶真事實,極大地增加了檢測的難度,這使得檢測時不能僅僅基於傳統的文本特徵檢測方法,還要依賴於一些輔助信息例如知識庫和用戶的社交活動來做出判斷;另一方面,利用輔助信息本身也並不是一件容易的事情,因爲虛假新聞針對的往往是時效性極強的新鮮新聞,相關的知識可能還沒來得及在知識庫中得到更新,並且社交活動產生的數據本身就是龐大、易於缺失、充滿噪聲的非結構化數據,從中提取到有效特徵,充分利用網絡結構中的信息是非常有挑戰性的一件事。

假新聞重定義

傳統上來說,假新聞的定義有狹義和廣義之分,狹義的假新聞有真實性和意圖這兩個主要特徵,分別從內容和動機上做了規定,真實性指的是新聞內容是不真實的,是假的信息,而意圖指的是編造者有着誤導讀者的不誠實意圖。而廣義上的假新聞並不要求同時滿足這兩個特徵,只需要滿足一個即可,比如說諷刺文學或者惡作劇等等。論文針對的對象是狹義的假新聞,其定義爲**“假新聞是蓄意編造出來的不滿足真實性的新聞文章”**。按照此定義,諷刺新聞、謠言、陰謀論、無意產生的錯誤信息、惡作劇等等都被排除在假新聞之外。

引入符號和公式

  • aa代表一篇新聞,它可以看做由發佈者信息和具體內容兩部分構成,分別用pa\vec{p_a}ca\vec{c_a}來表示,前者包含姓名、領域、年齡等用來描述作者個人信息的特徵,後者則包含了標題、正文圖片等用來描述新聞內容的信息。

  • 對於新聞aa,定義傳播它的n個用戶構成的集合爲U={u1,u2,,un}U=\{u_1, u_2, \dots,u_n\}, 他們對應發出的帖子集合爲P={p1,p2,,pn}P=\{p_1, p_2, \dots,p_n\},每一個傳播事件用元組eit={ui,pi,t}e_{it}=\{u_i, p_i, t\}來表示,含義爲用戶uiu_i在時間tt發佈了帖子pip_i來傳播新聞aa。如果未被傳播,則t=Nullt=Nulluiu_i代表新聞的發佈者。論文用元組構成的集合$ \varepsilon = {e_{it}}來表示新聞a$的傳播過程。

  • ϝ\digamma爲需要學習的檢測函數,則檢測目標可寫爲下圖公式所示的二分類任務:

在這裏插入圖片描述

檢測框架

假新聞檢測的通用數據挖掘架構可以分爲特徵提取和模型構建兩個部分。

特徵提取
  • 語言層面(Linguistic-based)

    • 寫作風格:一般採取具有煽動性的語言。
    • 語言特徵:標題黨,標題具有誘惑性,吸引讀者點擊。
    • 詞法特徵(lexical features):包含了字母層次和詞層次,比如所有單詞、每個單詞的字母、常見單詞的出現頻率、獨特的單詞等。
    • 語法特徵(syntactic features):句子層面,比如功能詞和短語的頻率或標點符號和詞性標記。
    • 新聞領域的語言特徵(domain-specic linguistic features):引用詞、外部鏈接、圖片數量、圖片的平均數量等等。
  • 視覺層面(Visual-based)

    • 視覺特徵(visual features):清晰度,相干性,相似性分佈直方圖,多樣性值和聚類值。

    • 統計特徵(statistical features):計數,圖像比,多圖像比,熱圖像比,長圖像比。

  • 社交層面(Social Context Features)

    • 用戶特徵(User-based)
      • 個人級別(individual level):通過註冊年齡,關注者/被跟隨者的數量,用戶創作的推文的數量等來推斷用戶的可信度(是真人還是機器人)。
      • 羣組級別(group level):捕獲與新聞相關的用戶組的整體特徵,通常通過聚合來得到,比如跟隨者的平均數量等等。
    • 發帖特徵(Post-based)
      • 帖級別(post level):利用主題模型發掘帖子中體現的發帖人對於新聞的立場和態度。
      • 組級別(group level):聚合與新聞相關的所有帖子的特徵,比如計算平均可信度。
      • 時間級別(temporal level):捕捉隨着時間變化,帖子各項指標的變化情況。
    • 網絡特徵(Network-based):在發帖用戶中構建網絡來提取相關特徵。
模型構建
  • 新聞內容模型(News Content Models)

    • 基於知識(Knowledge-based)
      • expert-oriented:依賴於特定的人類領域專家來調查(對智力水平要求較高且效率低,不切合實際)。
      • crowdsourcing-oriented:衆包方法,利用羣衆的智慧,允許普通人對新聞進行註釋,並進行彙總和評估。
      • computational-oriented:面向算法的方法,首先提取新聞中的知識,然後判斷是否能夠由已有的知識圖譜推導出來。
    • 基於風格(Style-based)
      • Deception-oriented:面向欺騙性的深層語法檢測(PCFG)或者是修辭結構檢測,深層網絡結構例如CNN有時也會應用到。
      • Objectivity-oriented:面向客觀性的基於語言特徵的極端黨派風格檢測或者從標題入手的黃色新聞(聳人聽聞的新聞)檢測。
  • 社交背景模型(Social Context Models)

    • 基於立場(Stance-based)
      • 利用來自相關帖子內容的**明確的(explicit)**用戶觀點來推斷原始新聞文章的準確性。明確的立場是情感或觀點的直接表達,例如贊或者踩。
      • 利用LDA模型從用戶帖子中提取出**潛在的(implicit)**立場,具體可分爲支持、中立和反對。
    • 基於傳播(Propagation-based)
      • 同質可信網絡(homogeneous credibility networks):由單一類型的實體組成,例如帖子或事件
      • 異質可信網絡(heterogeneous credibility networks):涉及不同類型的實體,例如帖子,子事件和事件

可用數據集

共有四個公開可用的數據集:BuzzFeedNews, LIAR, BS Detector, CREDBANK,並且它們每一個都存在着自己的侷限性,比如BuzzFeedNews只包含標題和正文內容且來自數目有限的幾個新聞機構;LIAR 只有個人言論而不是正規的新聞;BS Detector 的標籤是模型預測得出,而不是專家評估,因此準確性存疑;CREDBANK 是有關推特的數據集而不是新聞。除此之外,正如圖一所示,並沒有一個數據集能夠提供論文中提到的所有潛在特徵。

在這裏插入圖片描述

圖1:不同數據集的特徵比較

作者正在開發一個全新的稱之爲FakeNewsNet20FakeNewsNet^{20}的數據集,它將具有可靠的真假新聞標籤,並具有作者在文中提到的所有與新聞內容和社交背景相關的特徵。

評估指標

可以把虛假新聞檢測看成是一個二分類問題,其四個基礎的評估指標爲

  • 真陽性(True Positive/TP):預測爲fake news 且實際是fake news
  • 真陰性(True Negative/TN):預測爲true news 且實際是true news
  • 假陽性(False Positive/FP):預測爲fake news 但實際是true news
  • 假陰性(False Negative/FN):預測爲true news 但實際是fake news

從這些指標出發,可以進一步推導出如下評估指標,這幾種預測指標都是數值越大,預測效果就越好

  • 精確率(Precision):計算預測出來的某類樣本中,有多少是被正確預測的,針對預測樣本而言

在這裏插入圖片描述

  • 召回率(Recall):計算預測出來的某類樣本中,有多少是被正確預測的,針對原先實際樣本而言

在這裏插入圖片描述

  • F1值(F1 Score):統計學中用來衡量二分類模型精確度的一種指標。它同時兼顧了分類模型的精確率和召回率。F1分數可以看作是模型精確率和召回率的一種加權平均,它的最大值是1,最小值是0

在這裏插入圖片描述

  • 準確率(Accuracy):預測正確的樣本數與總樣本數之比

在這裏插入圖片描述

還可以使用ROC曲線與AUC值作爲評估標準

  • ROC曲線(Receiver Operating Characteristics curve)提供了一種通過查看負正類率(false postive rate FPR)和真正類率(true postive rate TPR)來衡量分類器好壞的依據。其中FPR沿X軸繪製,TPR沿Y軸繪製。ROC曲線越靠攏(0,1)點,越偏離45度對角線越好。

在這裏插入圖片描述

  • AUC(Area Under the Curve)值爲ROC 曲線所覆蓋的區域面積,顯然,AUC越大,分類器分類效果越好。 並且AUC常用於不平衡的分類問題上,很實用於虛假新聞檢測。

    • AUC = 1,是分類完全準確
    • 0.5 < AUC < 1,AUC 越大,分類效果較好,有預測價值。
    • AUC = 0.5,跟隨機分類一樣,模型沒有預測價值。
    • AUC < 0.5,比隨機分類還差;但只要將分類結果調轉,則優於隨機分類。

相關領域

謠言檢測(Rumor Classification)

主要可分爲謠言檢測(判斷是否是謠言),謠言追蹤(收集和追蹤討論特定謠言的帖子),立場分類(確定相關帖子的立場)和真實度分類這四個子任務, 與假新聞檢測最相關的任務是謠言真實度分類(其實我感覺謠言檢測更相關一些)。

真相發現(Truth Discovery)

從多個新聞來源中分辨出正確的信息源。但依賴於多角度信息源的採集,如果假新聞發佈時間早,或者只有少數新聞媒體新發布和發佈假新聞,則難以檢測。

標題黨檢測(Clickbait Detection)

往往文不對題,可以通過假新聞檢測中的語言特徵學習來識別標題和新聞內容之間的不一致性。

垃圾郵件和機器人檢測(Spammer and Bot Detection)

垃圾郵件發送者檢測的現有方法主要依賴於從用戶活動和社交網絡信息中提取特徵,而機器人檢測方法基於社交網絡信息,差異特徵。而這與假新聞檢測中用到的特徵相一致。

未來研究

面向數據
  • 數據集(dataset):現有的基準數據集沒有一個擁有所有類型的特徵,因此創建一個全面的,大規模的假新聞基準數據集很有必要。
  • 時間(temporal):進行早期假新聞檢測,在傳播過程中提供假新聞的早期警報,防止其在社交媒體上進一步傳播
  • 心理學(psychological):社會心理學相關的定性研究很成熟,但定量研究尚不充分,比如迴音室效應就可以進一步研究如何利用。此外許多已有算法僅關注新聞的真實性,忽視了新聞發佈者的意圖,因此可以探究如何使用數據挖掘方法捕捉心理學意圖。
面向特徵
  • 新聞內容(news content):使用基於語言和基於視覺的特徵,前者已經在相關領域應用地非常廣泛,但後者還有待進一步研究。
  • 社交背景(social context):前文分別引入了用戶特徵、發帖特徵和網絡特徵。其中現有的用戶特徵抽取方法主要關注普通的用戶文檔,以後可以進一步按類型區分用戶再分別提取特徵。發帖特徵可以用CNN來抽取。網絡特徵的發展方向之一是根據相關用戶和發帖之間關係的不同方面來構建其他網絡;另一方面是使用網絡嵌入等等更爲先進的方法。
面向模型
  • 有監督(supervised):提取到的有效特徵經過聚合或投影之後用於有監督分類模型中,比如樸素貝葉斯、決策樹、邏輯迴歸、k 近鄰(KNN)和支持向量機(SVM),然後選出表現最好的分類器或者通過模型集成獲得更好的結果。
  • 半監督(semi-supervised)或無監督(unsupervised):有監督方法需要人工標註樣本,費時費力,爲了更實用可以考慮應用半監督或者無監督模型。
面向應用
  • 虛假新聞傳播(fake news diffusion):描述了社交媒體網站上假新聞的傳播路徑和模式,並發現它與真新聞傳播過程中的不同之處,需要考慮的特徵有社會維度,生命週期,傳播者身份等。
  • 虛假新聞干預(fake news intervention):通過主動干預方法減少假新聞的影響,比如刪除發佈假新聞的惡意賬戶,或者是推送相關的真新聞,修正讀者已經被假新聞影響的思想。

讀後個人思考

在閱讀這篇論文之前,我以爲裏面的主要內容就是單純的文本處理,介紹一些自然語言處理相關的模型之類。但它實際的廣度和深度遠遠超過了我的想象,作者從傳播學、社會學、心理學等角度旁徵博引,論證了社交領域上的假新聞與傳統假新聞在內容、傳播、影響等方面完全不可等同視之,因此也不能照搬後者僅僅基於文本的檢測方法,而要從多方面着手,從用戶的社交信息,新聞的標題、傳播事件的網絡特徵等充分發掘信息,對新聞的真假進行判斷,令人耳目一新,既有創新性又有說服力。由此看來,要寫出一篇優秀的論文,有時僅僅懂得本專業的知識是不夠的,還要將不同專業的知識深刻理解融會貫通。

除此之外,作者的寫作思路也很值得學習,邏輯嚴謹層次清晰,對假新聞檢測做了非常全面的分析,讀完之後結構就印在了腦子裏,不像以前讀的某些論文分層混亂,同一種東西翻來覆去在不同地方說。

當然作者寫這篇文章的出發點可能在於從理論上提出一種全新的思路,因此並沒有做一些細節上的解釋或者論證。比如說在一開始就給出了一系列和新聞傳播相關的符號表示,但是之後就再也沒提起過,有種虎頭蛇尾的感覺。而且雖然看起來作者提出的特徵更加全面更加有效,但他畢竟沒有和傳統的模型做過定量的比較,因此在說服力上還是欠缺了一點。除此之外,作者在有些地方詳略不當,比如關於模型的度量指標就完全沒必要寫得太細,像ROC和AUC已經是學界非常熟悉的指標,沒有必要從頭開始太過詳細地說明和推導。

當然,論文中提出的一些方法在我看來還是有着改進的餘地的,比如說有一些特徵是分割開來考慮的,在我看來完全可以合併考慮,比如用戶特徵和發帖特徵就可以綜合考慮,對於某個帖子,既要對它本身的立場和態度進行分析,也要對發佈它的用戶進行可信度判斷。

再比如,任何一個平臺上,真新聞肯定都是佔絕大多數的,因此數據集很可能會出現樣本不均衡的狀況,因此有必要在訓練時對此做一些調整和優化。

除此之外,論文中對人工審覈持否定態度,其實小範圍的人工審覈是完全可以的,比如預測模型會輸出新聞是假的概率,如果概率值和0.5很接近,就可以把這種數據交給人工判斷,打完標籤之後再加入訓練的數據集中,加強模型對這種新聞的判斷能力。

最後我有一個不成熟的新想法,就是能否訓練一個生成新聞的GAN,它由生成新聞的生成器和識別是否爲假新聞的判別器組成,然後就可以把判別器拿出來單獨作爲假新聞的檢測模型。這樣還可以有效地起到擴充數據集,爲以後的研究打好數據基礎的作用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章