罐子模型以及波利亞罐子模型(附加對論文的分析)

1  罐子模型簡介

 1.1 基本模型

  基本罐子模型中,罐子包含x個白色和y個黑色的球,它們混合在一起。從中中隨機抽取一個球,觀察其顏色;然後將其放回缸中(或不放回缸中),並重複選擇過程。

在此模型中可以回答的可能問題是:

  • 我可以從n次抽取中中推斷出白色和黑色的球的比例嗎?有多大比例?
  • 知道xy,抽取特定序列(例如,一個白色然後是一個黑色)的概率是多少?
  • 如果我只觀察n個球,我如何確定沒有黑球?(第一個問題的變體)

1.2  不同問題的分佈

  • 二項式分佈:罐子初始有兩種顏色的球,在n次抽取中某種顏色被抽到的次數,它的分佈列屬於二項分佈。
  • β-二項分佈:如上所述,除了每次觀察到一個球,都會向罐子中添加一個相同顏色的附加球。因此,罐子中的大理石總數增加了。參見Pólya缸模型
  • 超幾何分佈:罐子初始有兩種顏色的球,每次提取後球不返回罐子。那麼在n次抽取中抽取某種顏色球k次,它的分佈是超幾何分佈。
  • 多元超幾何分佈:如上所述,但球具有兩種以上的顏色。
  • 幾何分佈:在n次抽取中,抽取k次才第一次成功抽取某種顏色球的概率。
  • 負二項式分佈:罐子初始只有兩種顏色球,n次抽取中,到k次都沒有抽取某種顏色球的概率。它表示,已知一個事件在伯努利試驗中每次的出現概率是p,在一連串伯努利試驗中,一件事件剛好在第r + k次試驗出現第r次的概率。
  • 統計物理學:能量和速度分佈的推導。
  • 埃爾斯伯格悖論
  • Pólyaurn each:每次繪製特定顏色的球時,都會將其替換爲另外一個相同顏色的球。
  • 霍普甕:波利亞甕額外的球叫突變。繪製增幅器後,它會與其他全新顏色的球一起被替換。
  • 佔用問題:將k個球隨機分配給n個骨灰盒後,佔用骨灰盒的數量分佈。
  • 非中心超幾何分佈:指的是n次抽取不放回中,某種球被抽取的概率較大。有偏向性

 

2  波利亞罐子模型

  2.1 模型簡介

    基本的Pólya罐子模型中,罐子包含x白色和y黑色的球;從中隨機抽出一個球,觀察其顏色;然後將其返回到骨灰盒中,並將相同顏色的另一個球添加到骨灰盒中,並重複選擇過程。感興趣的問題是抽取某種顏色球數量的演變以及抽取的球的顏色順序

2.2  不同問題的分佈

  • beta-binomial分佈(貝塔二項式分佈):初始罐中只有兩種顏色球,比如在n次抽取中某種顏色球被抽取的次數概率分佈列。是一個貝塔二項式分佈列。因爲每次抽取某種球的成功概率未知或者隨機時,而是從β分佈中隨機得到。那麼如果每次該種顏色球所佔罐子球比例知道,那麼就是普通二項式分佈。不知道就認爲該抽取次數隨機變量符合貝塔分佈,是一個隨機變量。

         而貝塔分佈是指一組定義在(0,1) 區間的連續概率分佈,由兩個參數控制。也就是貝塔分佈是作爲一個概率的概率分佈而來的。因此,對於一個我們不知道概率是什麼,而又有一些合理的猜測時,beta分佈能很好的作爲一個表示概率的概率分佈。

 

     比如初始波利亞罐子中有3種顏色球,那麼初始的貝塔分佈參數爲(a=1/3-2,b=3-1/3-2),所以可得a=1,b=2。但是我們只關心某一個顏色球被抽次數所佔比例分佈,a/(a+b)=1/3,自然也就可以和度爲3的規則樹的情況對應起來了,貝塔分佈就是作爲某次伯努利實驗中某種顏色球所佔比例。推廣的看就是先驗概率爲1/3,根據每次抽的情況,來更新(a,b)。

那麼貝塔分佈其表達式長什麼樣子呢?

 

 2.2.1 一個例子

在上圖中,將最普通的二項分佈的參數p作爲一個貝塔分佈的隨機變量,那麼用貝塔分佈(a,B)去刻畫這個p

那麼這個聯合起來的分佈就是上圖所示,那麼如果計算呢?其計算公式如下

在董文祥的論文中,不完全的貝塔公式計算就是替換積分上限爲1/2即可。

如果想要計算,只需要按照如上方法計算貝塔分佈的概率值即可。

  • Dirichlet多項式分佈(也稱爲多元Pólya分佈):初始罐子有多種顏色球,每種顏色的球數上的分佈,在n次抽取中,某種顏色球所佔比例收斂到狄利克雷分佈。

               Dirichlet分佈是Beta分佈的多元推廣。Beta分佈是二項式分佈的共軛分佈,Dirichlet分佈是多項式分佈的共軛分佈。

參考:https://www.zhihu.com/question/26751755

3    我所關注的波利亞罐子模型部分

   

 

 

這裏的向量X的聯合分佈,就是在q次抽取中,各種顏色球被抽取過得次數的聯合分佈。而當抽取次數趨於無窮時,每種顏色球被抽取次數佔全部抽取次數的比例收斂到狄利克雷分佈。還可以得到在n次抽取中某種顏色球抽取次數的邊緣分佈(等價於整個分支節點數目的邊緣分佈)。

    那麼只考慮n次抽取中一種球被抽取次數佔比的分佈的話,它收斂於貝塔分佈。( Dirichlet分佈是Beta分佈的多元推廣。Beta分佈是二項式分佈的共軛分佈,Dirichlet分佈是多項式分佈的共軛分佈。),我們僅僅對n次抽取中某個顏色球被抽取次數佔比對應貝塔分佈感興趣。

思考:

     別人需要某個理論的時候的流程是:研究某個問題,利用數學建模過程,發現在某些假設下等價於某個數學上已知模型,學習該數學模型,看與這個問題內在規律是否對應。可根據問題的研究的不同,對該數學模型做取捨。比如這裏僅僅只對n次抽球中某個顏色球抽取次數佔比感興趣。那麼問題如下

   1  如何衡量誰的模型好或者不好?在指標上表現

  2   考慮某一種方法,性能一般,但也可以數學建模,然後驗證其性質?有發論文的價值嗎?

 

3.1   波利亞罐子模型和SI模型傳播的等價構造(重點)

        而等價構造的過程,是鍛鍊我們尋找理論支持的能力。在這個等價構造的過程中,大牛也是通過閱讀專業書籍《分支過程》,發現分支過程與SI模型(指數分佈,參數爲1的假設下)是可以等價構造的,進而使用,我現在能做的就是模仿,將該方向所有的基礎書籍通過閱讀論文的方式找齊,打基礎。

        

將上述語句簡單一點闡述就是: 

    規則樹中SI模型參數爲1的指數分佈傳播波利亞罐子模型抽球過程等價構造。

     1  罐子中:

  •  初始化:初始有bi  =1個顏色爲ci的球,
  • 抽取過程 :每次從罐子均勻抽取一個球后,將這個球和額外的個相同顏色球放入罐子,
  • 終止:重複q=n-1次抽取過程,顏色爲ci的球被抽取的次數用隨機變量Xi表示。

    2   規則樹中:

  •  初始化:初始源點s有有bi  =1個顏色爲ci的鄰居節點爲謠言邊界。
  • 感染過程 :每次從謠言邊界中均勻抽取一個點感染後,引入個節點加入到謠言邊界中。
  • 終止:重複q=n-1次感染過程,顏色爲ci的分支樹節點數目(以s爲源,bi爲根的子樹節點數目)用隨機變量Xi表示。

上述的謠言邊界總結點數目就是當時罐子中所有節點的數目。

 利用它就可以得到規則樹中每個分支樹的節點數目的聯合分佈

上述簡單化一下,就是我們僅僅對規則樹中某個分支節點數目所佔總感染節點的比例邊緣分佈感興趣,它符合參數爲的貝塔分佈。

 




3.2 附錄(個人研究筆記,可略看討論)

  3.2.1   分支佔比分佈的利用

      上述我們對於分支佔比分佈已經有了瞭解,對我來說,我的目的是爲了瞭解論文[1]做了什麼工作,怎麼做的。

     利用上述分支佔比分佈,該論文[1]提出一種局部謠言中心概念,該局部謠言中心的定義表明其具有一個性質。謠言中心在某個樹型傳播網絡最多有兩個,對一個局部謠言中心性來說。其每個分支樹所佔比例都會小於等於n/2,n爲總感染結點數目。

所以可得 

 

上述就是說這種局部謠言中心在規則樹(SI模型指數分佈傳播參數爲1)上的正確檢測概率,利用佔比分佈的貝塔分佈我們有

上述,利用分支佔比分佈直接得到對於度爲2,度爲3的規則樹時候,局部謠言中心的正確檢測概率與n的函數關係。

 

        在這裏爲止,這篇論文將論文[2]的謠言中心一般化了,然後一般化之後,在有限域中得到其正確檢測概率。整個的一個流程就是研究網絡模型和傳播過程,加上某些假設等價于波利亞罐子模型,對於問題提出一個算法找謠言中心點,發現其具有某種性質,這種性質又可以和波利亞罐子模型的佔比分佈聯繫一起。自然就可以得到這種算法的準確率了。

  3.2.2   研究該正確率函數性質(數學分析

    那麼很自然的,我們得到了一個關於度和感染總結點和正確檢測概率的函數關係式,那麼研究其函數的性質也是自然地,比如什麼時候取極值或者收斂等等。論文[1]有

但是對於

這種類型的函數,推導Pc(n)和自變量(度數和n)之間的變化關係不好推,因爲它不符合正常的函數。我們可以使用遞推式的方法,

  3.2.3   漸進域正確檢測概率 

雖然之前都在說這個函數單調增,單調減,但是其收斂值我們不知道,我們可以研究下

 

上述,告訴我們當n趨於無窮大的時候,局部謠言中心所點源點的正確檢測概率近似值爲0.307。

這個地方他的表達式推導是可以考慮的,考慮beta公式,我們做定積分運算。

 

 

  3.2.3   能更改的東西有

  

 

3.2.4    有先驗知識的信息源檢測

【1】論文作者在這裏研究了有先驗知識下的信息源檢測,在標準理論下的不同情況中,可以套理論。

上述就是在說:

   論文【1】第6章,會分析在已經有嫌疑節點的先驗知識下,觀察到某些被感染點情況。如何構造源估計從而使得檢測概率最大化?這是一個MAP問題,作者通過構造問題形式化定義,利用波利亞關係模型等價構造。得到了三種情形下的局部謠言中心的正確檢測概率的性能變化。

1     問題從新定義

 

2   正確概率分析

2.1 當嫌疑節點構成連通子圖時

上述就是說:

   在嫌疑節點構成連通子圖情況下,我們有先驗知識了,並且每個嫌疑節點爲源點概率是平均的,那麼所有的嫌疑節點先驗乘以其條件概率,再統一求和就是正確檢測概率。相當於對n個節點做了一個精簡化。正確檢測概率Pc(n)就爲6.6式。

利用公式6.6,再結合只關注嫌疑節點,那麼每個嫌疑節點的條件概率爲

綜合可得

這個過程就是說,現在有波利亞標準理論了,可不可以做一些情況下的直接套標準理論的分析呢?比如有先驗情況的?

關注其檢測性能

  

 

2.2兩個嫌疑節點的情況

1 正確檢測概率分析

 

上述的意思是說:

    錯誤檢測概率事件爲以s*爲源,距離爲d的s2的子樹數目滿足6.42的式子,所以才定源錯誤,想要知道這種情況發生的可能性。

      隱隱感覺這裏用到了論文【3】中檢測到感染第k個點爲源的可能性。因爲zh表示的是具有n個節點的Gn中以s*爲源,以距離它d遠的節點爲根的子樹Tn的節點數目。

 

         隱隱感覺這裏用到了論文【3】中檢測到感染第k個點爲源的可能性。似乎可以和論文[4]中樣本路徑關聯在一起,比如你有一個算法,該算法找到一個點,是的該點任意一個分支長度小於等於該樹中最長路徑的1/2,那不就可以套了嗎? 套馬爾科夫級聯。那麼每個分支的長度不就是一條馬爾科夫鏈嗎?在度爲2的時候的線形圖中,這種算法找到點和局部謠言中心是等價的,所以檢測概率相同,但是在度大於等於3的規則樹中就不一定了,我們可以根據其分支數目確定其長度?分支在m到n區間內(這是有貝塔分佈的),是這個長度,那麼這種算法達到這種長度的話,其檢測概率爲多少呢?直覺上比謠言中心性高,因爲其包含的事件更多一些。

 

 

 

上述在說:

   定源錯誤,那麼其實就是s2的RC>s*的RC,進而得到z1滿足的關係式子。那爲什麼只考慮z1的分佈呢?因爲第度爲2,所以只需要考慮邊緣分佈就可以了,參考5.12公式。

 

 

 

 

 

4 參考

【1】董文祥. 網絡中信息傳播:信息源選擇與檢測的若干關鍵問題研究[D]. 中國科學技術大學, 2014.

【2】2011Rumors in a Network Who's the Culprit

【3】   2011Finding Rumor Sources on Random Graphs

【4】 Zhu K, Ying L. Information source detection in the SIR model: a sample path based approach. IEEE/ACM Transactions on Networking, 2016,  24(1): 408-421.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章