Supplementary Materials for The spread of true and false news online 解讀

前言

本文針對發表自science上的文章The spread of true and false news online一文的Supplementary Materials的前20頁進行解讀。
該文章主要講的是,在社交媒體中,假新聞相對於真新聞而言在社交媒體上傳播更快更廣更深,之後作者探索其原因,發現假新聞的新穎程度更高。然後將新穎程度作爲真假新聞的原因之一。
在Supplementary Materials中,對該文章中的一些概念和方法進行的介紹,也是該文章工作過程中的思考過程。其中前20頁是純粹的概念。Supplementary Materials是該文章的補充說明。

Supplementary Materials

首先是對該文章中研究主體True News,False News、Rumor and Rumor Cascade進行描述和定義
在該文章中,研究的news不是單純的報刊發佈的新聞,而是將推特上任何帶有斷言的故事或聲明都看作是news,而不再乎其是否來源於機構。簡單的說,就是任何有主觀觀點,任何有意義的推文都是news。

rumor則定義成新聞故事或者聲明在推特網絡上傳播的一種社會現象。

rumor cascade定義成:謠言的傳播過程可以描述爲一個或多個級聯,,這種模式展示了一個具有共同、單一起源的連續轉發鏈。例如:當以個用戶1關於某個斷言發佈了故事或聲明A,這就開始了一個謠言級聯,當用戶2關於同個斷言發佈了新的故事或聲明B,這就是開始第二個級聯。兩個級聯相互獨立,它們展示了同一個謠言的兩個級聯。總的來說,該文章通過謠言級聯這一概念來描述新聞傳播的過程。

關於rumor cascade,它有兩個屬性,number of cascade,即多少個級聯(針對同一個主題);size of cascade,即單個級聯的原始推文被轉發了多少次。


在作者進行收集實驗數據時,遇到了一個問題:如何保證自己數據中的真新聞就是真新聞,假新聞就是假新聞呢?

針對這一問題,作者的同事建議通過新聞的可靠來源來判斷新聞的真假,(即,假如消息來源是可靠的,比如很大很公正的媒體,那我們就認爲他們發佈的新聞就如他們所說是真是假。)但這一建議被否決。
否決的原因是:

  • 首先即使消息來源可靠,他們發佈的新聞也不一定就是可靠的。衆所周知,一些媒體會因爲政治目的而故意給新聞打上真實或虛假的標籤來誤導民衆,從而實現自己的政治目的。
  • 其次,對於哪些消息來源是可靠的這並沒有結論,每個人羣對於各個新聞機構的信任度都不一樣,保守派民衆認爲可信的機構在自由派民衆看來並不可信,反之亦然。從下圖figure
    1可以看到,基本上所有的新聞媒體都不能稱爲可信消息來源。
    (figure 1)在這裏插入圖片描述
  • 最後,許多美國民衆認爲,發佈多少比例的可信新聞的機構與該機構是否可信並沒有必然關係,也就是說一個機構之前發佈了再多的準確的新聞,也不能保證下一次發佈的新聞一定是準確的。(有點像馬爾科夫過程)

基於以上原因,於是作者沒有采納同事的建議,而是選擇了:採用多個獨立事實檢測機構:
snopes.com, politifact.com, factcheck.org, truthorfiction.com, hoax-slayer.com, urbanlegends.about.com
在這裏插入圖片描述
figure 2(snopes.com)
爲了排除這些事實檢測組織的選擇偏頗,選擇了一個新的新聞數據集,其真假是由作者聘請的三名獨立的事實檢測員來人工檢測。


接下來便是收集數據。介於之前提到的謠言級聯的概念。本文將謠言的傳播過程描述成了謠言級聯,當用戶關於一個主題發佈推文的時候(包含文本信息,圖片或者鏈接),謠言級聯便開始了,之後其他用戶通過轉發來轉播。

推文的評論中有時會包含着事實檢測機構的鏈接,證實原始推文的信息爲真或者爲假。除了鏈接,推文中經常包含一些圖片,通過谷歌搜索來尋找圖片的鏈接。

找到這些評論所回覆的原始推文,將原始推文以及它的轉發推文抓取下來
在抓取謠言推文的回覆推文過程中,不考慮評論的評論。
利用推特api來獲取2006.9-2016.9的包含鏈接的推文,一共有500K個推文。


下面進行一些真假判斷的處理。

每個檢測機構對新聞真假性的分級規則不同,有的是分了五個級別:真實、比較真實、混合,比較假、假,而有的是打分,對此進行統一,把新聞真假類別映射成真新聞,假新聞,混合新聞三類。

對於同一個新聞,可能不同事實檢測組織給出的判定結果不同時,多數爲準確。

上述組織已經給新聞加上了一個主題,根據這些主題分類,將新聞分成7類,政治、都市傳奇、商業、科技、恐怖主義、戰爭、娛樂和自然災害。對於沒有主題標籤的,用人工標記的方式來解決。


數據過濾
通過對比鏈接文章的標題和原始推文的標題,來刪除直接包含事實檢測網站的推文(因爲該推文已經被證實真或假,本文想要研究未經證實和有爭議的信息時如何傳遞)
經過上述操作,158K個級聯倖存。

使用ParagraphVec和Tweet2Vec算法將鏈接文章標題和原始推文轉換成向量來捕獲它們的語義內容,使用餘弦相似性來測量向量們之間的距離,當相似性低於0.5,則移除,0.5~0.9,則人工審查,高於0.9,則正確。
該階段移除了10331個級聯。

使用了機器人檢測算法,將13.2%的被認定爲機器人賬戶移除。

在經過數據處理之後,剩下了126301個謠言級聯。
關於2448個謠言,其中1699個是假新聞,490爲真,259混合。
126301個謠言級聯中,,其中82605是假新聞級聯,24409是真新聞級聯,19287是混合新聞級聯。


構建謠言傳播軌跡
由於推特api提供的轉發樹,所有轉發推文都指向了原始推文,這並不是真實的傳播軌跡,需要修正。

修正的方式是通過粉絲信息來修正的。

例如:
在這裏插入圖片描述
a中是推特api提供的轉發樹,所有的節點都指向了原始的的節點。作者通過b中的粉絲信息,得知C用戶關注了B用戶卻沒有關注A用戶,從而判斷,關於該推文,C用戶是從B用戶那裏轉發的,而不是從A用戶。如此一來,便得到了c中的傳播軌跡。
針對更一般的情況,修正工作的成果如下圖所示,更加清晰。
在這裏插入圖片描述
之後的研究都是建立在修正的結果上的。

其中用到來得粉絲信息是通過推特api返回粉絲信息的逆時序 結合 用戶什麼時候加入推特 來大致推斷得到的。


謠言級聯特徵·靜態特徵

  • depth:某一節點到根節點的邊的個數,而級聯的深度是最大節點深度,如a所示
  • size:級聯中的用戶數(每個用戶轉發推文只能轉發一次)如b所示
  • structural virality:級聯中各個點之間的平均距離,如c所示
  • max-breadth:級聯中每個深度都有許多個節點,節點個數最大的即使寬度,如d所示

謠言級聯特徵·動態特徵

  • depth over time:達到不同深度的平均時間

  • unique users over time:達到不同用戶時的平均時間

  • breadth vs depth:每個深度的寬度

  • unique users vs depth:不同深度的總用戶數量

在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章