PageRank模型中的參數與其敏感性分析

附註:本博文內容對應書本5、6章

一、α 因子

上一篇博客中引入參數a來產生谷歌矩陣:

這裏寫圖片描述

當a→1時,冪法所需要的期望迭代次數急劇上升。如下表所示:
這裏寫圖片描述

當a→1時,由跳轉矩陣這裏寫圖片描述所帶來的人爲成分會減少,但計算時間卻增加了。常數a不僅僅控制了PageRank方法的收斂,還影響了計算得到的PageRank向量的敏感性。

敏感性分析:

可以形象地用這裏寫圖片描述來表示πT 中的元素如何隨α 變化的情況的一個近似,雖並未精確,但對其分析可以揭示出若干重要信息。
這裏寫圖片描述
這裏先給出三個定理:
1.設PageRank向量由下式給出
這裏寫圖片描述
式中,Di(a)爲I-G(a)中的第i個n-1階主子式。由於每個主子式Di(a)>0都是I-G(a)中元素值的乘積之和,因此這裏寫圖片描述中的每個元素在(0,1)區間都是a的一個可微函數。證明可微
下面定理給出導函數向量中單個函數取值的(1 - 範數)一個上界,以及這些元素之和的一個上界。

2.若這裏寫圖片描述爲PageRank向量,則對每個j=1,2,···,n,有
這裏寫圖片描述

這裏寫圖片描述

由定理2可知,對於較小的a值,確保了PageRank不會過於敏感,但隨着a→0,值將趨向於無窮大,因此這個上界將變得越來越沒有價值。但是,較大的a值對萬維網真實鏈接結構賦予了更大的權重,而較小的a值則增加了人爲製造的概率向量vT 的影響。因此,較大的a值比較符合我們的想法,下面定理3進一步確定PageRank對較大的a值的敏感性。

3.若πT(a) 是谷歌矩陣這裏寫圖片描述
所對應的PageRank向量,則
這裏寫圖片描述

特別的,該導數的極限值如下
這裏寫圖片描述

其中,這裏寫圖片描述表示矩陣的羣逆。

以下推導和結論照抄原文:
所有隨機矩陣的主特徵值λ1=1 均爲半簡的,因此當S通過相似變換被簡化爲若當形,所得結果爲
這裏寫圖片描述

······
······
由萬維網鏈接結構所定義的鏈幾乎是近耦合的,所以可以預計矩陣S具有非常接近於λ1=1 的次主特徵值。所以a接近於1PageRank對a的變動將更加敏感。

基於以上的公式,作爲參數a的函數,PageRank向量πT(α) 對於a值得微小變化的敏感性如下:

  • 對於小的a值,PageRank對a的微小變化不敏感
  • 當a的值變大時,PageRank對a的微小擾動變得越來越敏感
  • 對於接近於1的a值,PageRank對a值的微小變化改變非常敏感,敏感度由S的近非耦合的程度所決定。

意大利的研究者通過考察更高階的導數而非本節所給出的簡單的一階導數,對PageRank關於a的敏感性的研究工作進行了拓展。

二、超鏈接矩陣H

PageRank模型中另一個可調整的部分就是H矩陣本身。回顧H與S的關係如下:

這裏寫圖片描述

開始建議用平均加權的方式來產生H矩陣的元素,即一個頁面的所有的岀鏈都以隨機上網者的鏈接概率的形式被賦予了相等的權重。然而這樣一視同仁卻不一定是進行網頁排名的最佳途徑,上網者可能會根據許多有價值的內容或有關的描述性錨文本來選擇一個岀鏈並鏈接到新頁面。於是決定利用智能上網者替代隨機上網者

譬如,相比於簡短的廣告頁面而言,內容充實的頁面應當被賦予更高的概率權值。有一個實用的方法是研究上網者的真實的喜好,例如研究他的訪問日誌,並發現停留在P1上的上網者他們鏈接到P2的可能性是鏈接到P3的可能性的兩倍。
這裏寫圖片描述
當對頁面P1應用智能上網者時則變爲:
這裏寫圖片描述
注意每一行的元素之和爲0,如果這一點不成立,需要歸一化處理。

敏感性分析:

這裏寫圖片描述 對於H的變化有多敏感:
這裏寫圖片描述對於H中的擾動敏感這裏寫圖片描述
對於敏感性的研究,先求導:
這裏寫圖片描述

a的影響是一目瞭然的。當a→1時,這裏寫圖片描述中的元素元素趨向於無窮大,PageRank向量對於網絡圖結構中的微小變化更爲敏感。但由上式還能看到另一個相當符合常識的結果:
相比於改變一個不重要的頁面中的鏈接而言,增加一條鏈接,或者增加某個重要頁面(即πi 具有大的值)中鏈接的權重,將對PageRank向量的敏感性有着更大的影響。

三、跳轉矩陣E

谷歌兩位創始人對E提出的最早修改,將evT 替代1/neeTevT 是一個概率向量,或稱爲個性化向量或跳轉向量,是元素都爲正的的概率矩陣,因此每個結點仍然直接與其他所有結點相連,即G爲素矩陣,意味着該馬爾科夫鏈存在一個唯一的穩態向量,它就是PageRank向量。

使用vT 替代1/neT 意味着跳轉概率不再是均勻分佈的,而是按照vT 給出的概率進行跳轉,冪法變爲了:
這裏寫圖片描述

這裏寫圖片描述

個性化向量使每個上網者擁有自己獨特的個性化向量vT ,但是,它使得與查詢無關、與用戶也無關的PageRank變得依賴於用戶,而且計算負擔也更重了,要知道谷歌要花費數日才能計算出一個vT 向量對應的一個πT

然而,許多人都將個性化引擎視爲搜索的未來,從而採取了準個性化的PageRank排名系統,這是針對不同用戶羣來給出排名的方式。

此類系統之一便是塔赫 · 哈維利瓦拉(Taher Havelivala)所創造的產品。簡而言之,就是用16個偏置的PageRank向量的凸組合來形成他自己的對主題敏感、與查詢相關的PageRank向量,即
這裏寫圖片描述

式中,B的求和爲1,每一個爲對應一個主題相關的概率權重。有人也認爲,這個個性化向量vT 卻似乎具有更大的潛在作用,有人推測,谷歌可以利用該個性化向量來控制那些所謂的鏈接農場的垃圾信息製造行爲。

敏感性分析:

計算對vT 的導數:
這裏寫圖片描述

式中,D是懸掛結點集合。從這個式子可以知道兩個方面。
1.依賴於a,當a→1時,(IαS)1 中的元素趨向於無窮大,因此也更加證明了當a→1時PageRank向量更加敏感。
2.如果懸掛結點總體而言包括了PageRank中的一個較大部分(這裏寫圖片描述較大)的話,則PageRank向量對於個性化向量vT 中的變化更爲敏感。這一點和常識相吻合。如果懸掛結點集總的來說較爲重要,那麼隨機上網者將更爲頻繁地對其進行重複訪問,從而也更加頻繁地依照vT 中給出的跳轉概率改變位置。因此,隨機上網者的行動以及由此而得的PageRank值得分佈對於跳轉向量vT 中的變化具有敏感性。

四、其它敏感性分析:

例如對於PageRank向量更新前後之差的變化進行研究等。詳細且看書中頁面64-65

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章