基於PINN的傳播動力學研究

分享者:中國傳媒大學大數據分析與挖掘實驗室博士生張志強

衆所周知,我們處於網絡信息大爆炸的時代。現代互聯網產生了大量的輿情信息,其中很多信息並不是正常的信息,是因爲在網絡中存在着大量水軍或部分惡意造謠者。國家非常重視輿情治理,它與整個國家的安全息息相關。網絡中許多貌似無用的熱點話題,也與我們的日常生活具有緊密關聯,引起大衆的廣泛關注,在某種意義上也會影響到整個社會生活的方方面面。

部分具有網絡輿情監測或輿情治理功能的平臺

在整個信息傳播過程中,引起人們關注的話題,往往是遵循某一規律進行傳播的。此處我重點關注網絡中微博的信息傳播情況。這裏借用了殷復蓮教授在2020年出版的《網絡信息傳播建模與分析》一書,書中將網絡信息傳播的整個過程,抽象爲一種單信息傳播的模式。例如在微博中有一個大V發佈了一條信息,隨後會產生很多的評論數據以及累計轉發量數據。

在此背景之下,可以將整個網絡信息傳播抽象成如圖所示形式。

這種形式仿造了醫學領域傳染病動力學的研究基礎,把網民劃分爲四類羣體:第一類是易受影響的羣體,他們沒有接觸到這些信息;第二類是已經接觸到信息的羣體;在這個羣體之中會有一部分人進行轉發,這類人羣被稱之爲轉發者。轉發之後,一部分人因已接觸過這些信息而失去興趣,因而變成免疫者。

單信息傳播SFI動力學模型

單信息傳播SFI動力學模型

簡單將這一單信息傳播過程進行抽象的建模,可以用SFI動力學模型表示。模型中有三個主要的羣體,即S、F和I,分別代表易受影響人羣、傳播人羣和信息免疫人羣。

這一模型與傳染病動力學模型的不同之處在於:傳染病領域是可以實時獲得各個羣體的狀態,例如某個個體處於感染病毒或免疫病毒的狀態。但在信息傳播領域,往往只能獲得已經接收到信息羣體的數據。例如可以將微博中的轉發量作爲已接受到信息的羣體數量。難點在於獲得信息免疫人羣的數據。所以在此引入新的變量C代表累積傳播人羣。以微博爲例,可以用某一條微博信息的累計轉發量來代表這個羣體。其中存在一些參數,比如說貝塔、阿爾法、P,此處類似傳染病動力學模型,它們各有特殊含義。藉此完成對整個單信息傳播的動力學建模,圖3爲模型的基本的微分方程形式。引入累計轉發量,可以通過爬蟲的方法獲得某一條新聞或輿論的累計轉發人羣,或是接觸到信息的人羣的具體情況。

嵌入物理神經網絡

我的方法是將PINN方法引入到信息傳播過程,關注在時間推進的情境下,各個羣體的數量變化。此處的輸入數據僅爲時間,輸入數據也可以包含一些其他變量,如距離,但並非現實生活中的物理距離,它可能是網絡中的兩個節點或網絡社交的距離,如好友關係。通過某種方式遞出距離,同時也需要獲得各個羣體的初值。

通過PINN方法,可以對整個單信息傳播的過程進行建模。建模過程中主要想獲得輿論傳播某條信息的未來發展趨勢,這一行爲對於探索傳播規律、輿情信息的監控和治理等大有裨益。

基於Paddle的實驗結果

基於經典最小二乘法、蒙特卡洛採樣法的擬合效果

此類方法非常依賴於真實數據的情況。同時也對各個狀態的初值非常敏感。

基於飛槳平臺,使用PINN的方法擬合單信息傳播模型的效果

基於PINN的方法,首先其整體擬合效果往往優於傳統方法。其次,使用PINN的方法可以加入一些其他變量。在嘗試過程中,我加入了部分社交距離的變量,驗證它相比於經典方法,做偏微分的擬合效果更突出。最後,這一方法對初值和邊界並不敏感。無論傳染病動力學還是信息傳播動力學,初值和邊界對整個結果的重要性不言而喻,很多情況下結果的偏差是不合理的初值和邊界選擇導致的。

此外,我也做了部分信息傳播方面的其他研究:引入情感變量,將轉發羣體進行情感的分類,包含正面情感、負面情感或中性情感三種情況。

基於傳統方法的擬合情況,尤其是在輿論發展到快速傳播階段時,擬合效果並不理想。關於非常經典的謠言的兩個階段,一是謠言的傳播階段,二是闢謠信息的傳播階段,這類信息的傳播結果,需要分階段各自進行動力學的擬合,然而使用PINN的方法可以將整個過程進行建模。

總結與展望

1.使用PINN的方法在多個傳播動力學模型上均可取得優於傳統方法的擬合結果;

2.相比於純數據驅動方法,結合動力學模型能夠預測更長階段且減少誤差累積;

3.PINN方法在反問題求解上受初值或邊界值影響不明顯,擬合更加高效;

4.處理多輸入問題(如偏微分方程),擬合參數同時獲得各個狀態值的輸出,PINN方法更加高效;

5.在信息傳播動力學問題中,除時間t外的自變量比較難確定,關於傳播動力學中偏微分方程的擬合還有待實驗驗證。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章