附註:本博文內容對應書本5、6章
一、α 因子
上一篇博客中引入參數a來產生谷歌矩陣:
當a→1時,冪法所需要的期望迭代次數急劇上升。如下表所示:
當a→1時,由跳轉矩陣所帶來的人爲成分會減少,但計算時間卻增加了。常數a不僅僅控制了PageRank方法的收斂,還影響了計算得到的PageRank向量的敏感性。
敏感性分析:
可以形象地用來表示
這裏先給出三個定理:
1.設PageRank向量由下式給出
式中,Di(a)爲I-G(a)中的第i個n-1階主子式。由於每個主子式Di(a)>0都是I-G(a)中元素值的乘積之和,因此中的每個元素在(0,1)區間都是a的一個可微函數。證明可微
下面定理給出導函數向量中單個函數取值的(1 - 範數)一個上界,以及這些元素之和的一個上界。
2.若爲PageRank向量,則對每個j=1,2,···,n,有
且
由定理2可知,對於較小的a值,確保了PageRank不會過於敏感,但隨着a→0,值將趨向於無窮大,因此這個上界將變得越來越沒有價值。但是,較大的a值對萬維網真實鏈接結構賦予了更大的權重,而較小的a值則增加了人爲製造的概率向量
3.若
所對應的PageRank向量,則
特別的,該導數的極限值如下
其中,表示矩陣的羣逆。
以下推導和結論照抄原文:
所有隨機矩陣的主特徵值
······
······
由萬維網鏈接結構所定義的鏈幾乎是近耦合的,所以可以預計矩陣S具有非常接近於
基於以上的公式,作爲參數a的函數,PageRank向量
- 對於小的a值,PageRank對a的微小變化不敏感
- 當a的值變大時,PageRank對a的微小擾動變得越來越敏感
- 對於接近於1的a值,PageRank對a值的微小變化改變非常敏感,敏感度由S的近非耦合的程度所決定。
意大利的研究者通過考察更高階的導數而非本節所給出的簡單的一階導數,對PageRank關於a的敏感性的研究工作進行了拓展。
二、超鏈接矩陣H
PageRank模型中另一個可調整的部分就是H矩陣本身。回顧H與S的關係如下:
開始建議用平均加權的方式來產生H矩陣的元素,即一個頁面的所有的岀鏈都以隨機上網者的鏈接概率的形式被賦予了相等的權重。然而這樣一視同仁卻不一定是進行網頁排名的最佳途徑,上網者可能會根據許多有價值的內容或有關的描述性錨文本來選擇一個岀鏈並鏈接到新頁面。於是決定利用智能上網者替代隨機上網者。
譬如,相比於簡短的廣告頁面而言,內容充實的頁面應當被賦予更高的概率權值。有一個實用的方法是研究上網者的真實的喜好,例如研究他的訪問日誌,並發現停留在P1上的上網者他們鏈接到P2的可能性是鏈接到P3的可能性的兩倍。
當對頁面P1應用智能上網者時則變爲:
注意每一行的元素之和爲0,如果這一點不成立,需要歸一化處理。
敏感性分析:
對於H的變化有多敏感:
對於H中的擾動敏感
對於敏感性的研究,先求導:
a的影響是一目瞭然的。當a→1時,中的元素元素趨向於無窮大,PageRank向量對於網絡圖結構中的微小變化更爲敏感。但由上式還能看到另一個相當符合常識的結果:
相比於改變一個不重要的頁面中的鏈接而言,增加一條鏈接,或者增加某個重要頁面(即
三、跳轉矩陣E
谷歌兩位創始人對E提出的最早修改,將
使用
個性化向量使每個上網者擁有自己獨特的個性化向量
然而,許多人都將個性化引擎視爲搜索的未來,從而採取了準個性化的PageRank排名系統,這是針對不同用戶羣來給出排名的方式。
此類系統之一便是塔赫 · 哈維利瓦拉(Taher Havelivala)所創造的產品。簡而言之,就是用16個偏置的PageRank向量的凸組合來形成他自己的對主題敏感、與查詢相關的PageRank向量,即
式中,B的求和爲1,每一個爲對應一個主題相關的概率權重。有人也認爲,這個個性化向量
敏感性分析:
計算對
式中,D是懸掛結點集合。從這個式子可以知道兩個方面。
1.依賴於a,當a→1時,
2.如果懸掛結點總體而言包括了PageRank中的一個較大部分(較大)的話,則PageRank向量對於個性化向量
四、其它敏感性分析:
例如對於PageRank向量更新前後之差的變化進行研究等。詳細且看書中頁面64-65。