隨機網絡的擴張

隨機網絡的擴張


概要:
象遺傳網絡或者www網絡一樣多樣化的系統被貼切的描述爲複雜拓撲結果的網絡。許多大的網絡的一個共同特性是點的連接時一個無上限、冪規律的分佈。這個特性被認爲是兩個通用機制的結果:1)網絡通過不斷的添加節點來擴展,2)新節點更多的被添加在已經有很多連接的點上。(馬太福音)。一個以上面兩點建立的模型再生了觀察的比較完全的無尺度分佈,表明了大型網絡的發展是被超越了個體系統細節的機器自組織現象所決定的。

     當代的科學描述由不完全相同的、有多樣性和非本地連接的元素構成的系統的無能爲力限制了許多學科的發展,從分子生物學到計算科學。描述這些系統的困難部分在於他們的拓撲:許多系統產生了複雜網絡(點是元素,邊是點與點的連接)。舉個例子,遺傳系統形成了一個巨大的基因網絡,點是蛋白質和基因,他們之間的化學反應是邊。在不同水平的組織,一個大型網絡通過神經系統來形成,電視神經原,軸突連着他們。但是對等的,在社會科學中也出現複雜網絡,點是個體或者組織,邊是社會關係,在www,點是html爲文檔,用link來詳解。由於這些網絡太大,連接的複雜性,這些網絡的拓撲大部分還不清楚。
     傳統意義上講,複雜拓撲網絡已經通過Erdo˝s and Re´nyi (ER)模型理論描述過了,但是由於大型網絡數據的缺失,ER理論的預測性在現實世界還沒有被測試過。隨着數據獲得方式的電腦化,這樣的拓撲信息成爲可能,提高了我們理解大型網絡的動態和拓撲穩定性的可能性。
     這裏我們報告一個有高度數的自組織網絡的存在,這個自組織網絡以大規模的複雜的。研究了描述幾個大型網絡的數據庫,從www到科學中的引用模式,我們發現,系統的獨立性和元素的標識性,概率P(k),即網絡中一個點擁有k連接點的概率,呈現冪函數遞減,P(k) ~ k**-m。這個結果表明大型網絡自組之成爲一個無尺度的狀態,一個現有隨機網絡模型無法預測的特徵。爲了找到這個scale不變量的源頭,我們證明了現有的網絡模型無法體現成長性和優先選取性,真實網絡的兩個主要特徵。用一個能體現這兩個特徵的模型,我們證明了他們符合顯示網絡中的冪函數遞減規律。最終,我們認爲這些元素在許多複雜系統的信息中佔據了一個易於識別的重要的角色,這個表明了我們的結果與自然中的一大類的網絡是相關的
     儘管有許多系統能產生複雜網絡,沒有多少能瞭解詳細的拓撲數據。電影演員的共同出現圖展現了一個社會網絡的證據充分的例子。每個演員都是一個節點,當兩個演員同時出現在一個電影中,那麼連點之間有一連線。一個演員有k個連接的概率有一個冪函數的長尾巴,即大大的k,滿足P(k) ~ k ** -m,m是2.3土0.1(圖1,A)。一個更復雜的網絡,有800百萬個節點,即www網絡,一個節點時一個文檔,一個邊表明兩個文檔由鏈接從一個指向兩一個。這個圖形的拓撲表現了web的連接型,並且表明了在www尋找信息的有效性。P(k)可以通過機器人得到,表明有k個文檔指向一個指定網頁也遵循冪函數遞減,m(www)=2.1土0.1(圖1,b)。有個網絡是西部美國電力網絡的,他的拓撲展現了城市與工業化的歷史模式,節點時發電器、傳輸器、變壓器,便是高壓電線。網絡的相對較小,只有4941個節點,區域大小也不突出,但是非常貼切的描述了一個冪函數規則,m(power)=4(圖1,c)。最後,一個非常大的複雜網絡,由科技論文引用形成的,借點是論文,與論文中引用的論文相連。最近Redner(11)證明了一個論文被引用k次的概率符合冪函數遞減規律,m(cite)=3。
     上面的例子說明規律許多大的隨機網絡都有一些共同的特徵,他們的連接型式沒有尺度的,服從一個冪函數(對大的k),指數從2.1到4,在現存的網絡模型中是沒有預測到的。ER(7)的隨機圖模型假設,從N個節點開始,概率p連接任何一對節點。在模型中,一個節點擁有k個邊的概率服從泊松分佈P(k)=e**-入 入**k/k!,入=N{N-1:k}p**k (1-批)**(N-1-k),N*從N-1取k*p的k次方*1-p的N-1-k次方。在WS引入的小世界模型中,產生一個N節點的一維圈,每個節點練到他最近的兩個鄰居。在概率p下,每個邊被重新連接到一個隨機的節點上。這個過程產生的一些列連接減小了解點之間的距離,產生了一個小世界現象,一般被叫做六度分離。對於p=0,連接數的概率分佈P(k)=狄拉克(k-z),(http://en.wikipedia.org/wiki/Dirac_delta_function),z是圈初始分配的邊的數量;對於限值p,P(k)仍然在z的附近取得最高點,但是它分佈的更廣了。ER和WS的共同特徵是,找一個多連接點的概率隨着指數k遞減;有時候多連接點是確實的。相反,網絡研究的冪函數尾巴特徵P(k)表明了多連接的點有很大的機會出現並主導這個連接。
     這些模型沒有包含現實網絡有兩個通常的特徵。一個是從固定的N個節點初始化,是隨機連接的ER模型,或者是重新連接的WS模型,都沒有修改N。相反,現實網絡是開放的,並且他們持續不斷的吸入新節點到系統,網絡的生命週期裏一直在增加N的值(這個是論文裏的,不過有待商榷,他沒有考慮網絡的衰敗和消失過程)。舉個例子,電影網絡一直在加入新人,www網頁一直在添加新的網頁,研究機構也一直在出論文。所以,一個特徵就是一個網絡一直在持續不斷的吸入新的節點到系統。
     第二,隨機網絡假定兩個節點是否相連是隨機的,即概率是一樣的,並且是全局同意的。相反,大部分顯示網絡表現出優先連接。舉個例子,一個新演員更多情況下是一個配角,和更多的已經有名的演員一起演戲。結果,一個新演員與有名的演員配戲的概率就大大的大雨沒有名氣的演員配戲的概率。相似的,一個新建立的網頁一般都有鏈接到達網站的連接,一個新的手稿更有可能引用一個有名的、被多次引用的論文而不是那些不是多麼有名的。這些例子表明一個節點連接到系統中的已經存在的節點的概率不是統一的;連接到一個有很多連接的點的概率是更大的。
     接着說明一個基於這兩點的模型產生已經被觀察到的固定指數的分佈。爲了包含網絡的成長特徵,我們從一個有很小的m0個節點的網絡開始,每一個我們家一個新節點,將這個節點和m(<=m0)個點連接。爲了包含優選特徵,我們假定一個新節點連接到節點i(i的連接數目爲ki),P(ki)=ki/kj的和(j從1到點的總數)。 t步後,模型產生了t+m0個節點和mt個邊。網絡進化成一個固定指數的狀態,一個點擁有k個邊的概率服從一個冪函數分佈,指數m(model)=2.9土1(圖2A)。因爲現實網絡的冪函數在系統不同的階段描述系統都是不一樣大小,需要能提供一個與時間無關的分佈的模型,在圖2A裏表明的,P(k)是獨立於時間的(後來也與系統的大小m0+t無關),表明儘管有持續不斷的成長,系統組織自己在一個冪函數分佈的穩定狀態。
     模型的冪函數式的擴展發展表明了成長性和優先選取在網絡發展中的重要性。爲了證明兩個都是必須的,我們研究模型的兩個變量。模型A保持網絡的成長型,但是通過加入新節點時加邊的概率統一相等來將優先選取被去掉[P(k)=const=1/(m0+t-1)]。這樣一個模型,(圖2B),其中P(k)~exp(-beta k),表明優先選取的缺失帶來了分佈的冪函數擴展特徵的缺失。在模型B中,起始於N歌節點和0個邊。在每一步中,我們隨機選一個點,然後與節點i相連的概率爲ki/kj的和(j爲所有的邊)。儘管在開始的幾步中模型呈現一個冪函數擴展,但是p(k)是不穩定的:因爲N是固定的,邊的數量隨着時間的改變,當T~~N**2後,所有的點都相連了。模型A和B的失敗表明了成長型和優先選取是穩定冪函數分佈的必備因素。
     由於優先選取,一個節點比另一個節點擁有更多連接的話,他增加他的連接數的可能性就更高;所以兩個點在初始化的不同會隨着網絡的增長變的更不同。一個已經存在節點在第t步得到新節點的連接的概率是  ki對t的偏導數=ki/t,ki(t)=m(t/ti)**0.5,ti是節點i在第i步添加到系統中,(圖2c),網絡連接型的時間分辨的數據有了後擴展性質才能測試。老節點(小ti)以年輕點的代價來增加他們自己的擴展性,隨着時間到這了一些節點時高連接型的,一個‘富者更富’的現象出現在真實網絡中。更多的,屬性能被用來解析的計算冪函數的指數。一個節點i擁有小於等於k的連接性的概率,p[ki(t)<k],可以寫爲P(ti>tm**2/k**2)。假定我們在等時間間隔里加點,我們得到P(ti > tm**2/k**2)=1-P(ti <= tm**2/k**2) = 1 - tm**2/k**2 (t+m0)。P(k)的概率密度可以通過偏導數得到,他隨着時間產生一個穩定的式子P(k)=2m**2/k**3,其中冪函數的指數爲3,獨立於m。儘管他們產生了冪函數分佈的,但是這個模型並沒有我們學習模型的全部特徵。我們需要對系統做更細節的建模。舉個例子,在模型裏,我們假定先行的優先選取,p(k)~k。然後,一般來說,p(k) ~ k**alpha,我們的模型僅僅是alpha=1。更多的,不同網絡得到的冪函數的指數分散在(2.1,4)。然而,很容易修改模型得到一個指數不是3的。舉個例子,我們假定連接是有方向的,我們得到冪函數的指數m爲3-p,支持方向的模型。最後,一些網絡不僅通過加入新節點來進化,有時候也通過在已存在的的點集合里加入新邊或者刪除邊來進化。雖然這些和其他的系統特徵能修改指數m,我們的模型給出了第一個成功的機制,用這個機制來得到一個指數不變化的自然的真實網絡。
     成長性和優先選擇是很多複雜系統的機制,包括商業網絡,社會網絡,交通網絡。xxxx。對這些系統的一個更好的描述可以幫助理解其他複雜系統,很少有拓撲信息,包括生物系統中遺傳和信號網絡的重要例子。我們認爲生物系統不是開放的和成長的,因爲他們的特徵遺傳編碼的。然後遺傳和信號網絡的冪函數固定指數特徵會反映了網絡的進化歷史,被成長性和不同成分的聚合主導,由簡單模型到複雜機制。在解碼基因網絡的快速發展中,對這些問題的答案不會太遠。相似的機制會解釋社會和經濟這些競爭系統中的節點之間的差距原因,因爲無標度的不同體是自組織網絡的必然結果,因爲個體節點的決定基於的信息與那些富有節點的信息是不對稱的,相對來說是偏失的,不論本身或者原始的能見到的信息的不同。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章