PageRank算法詳解
- 主要內容
- PageRank算法簡介
- PageRank算法詳解
- 基本PageRank模型
- 終止點問題
- 陷阱問題
- 解決終止點問題和陷阱問題
1、PageRank算法簡介
PageRank,網頁排名,又稱網頁級別或佩奇排名,是一種根據網頁間相互超鏈接進行網頁排名的技術,以Google公司創辦人拉里·佩奇(Larry Page)之姓來命名。Google用它來體現網頁的相關性和重要性,在搜索引擎優化操作中是評估網頁優化的有效指標之一。Google的創始人拉里·佩奇和謝爾蓋·布林於1998年在斯坦福大學發明了這項技術。
PageRank通過網絡浩瀚的超鏈接關係來確定一個頁面的等級。Google把從A頁面到B頁面的鏈接解釋爲A頁面給B頁面投票,Google根據投票來源(甚至來源的來源)和投票目標的等級來決定新的等級。簡單的說,一個高等級的頁面可以使其他低等級頁面的等級提升。
2、PageRank算法詳解
2.1 基本PageRank模型
互聯網中的網頁可以看成是一個有向圖,其中網頁是結點,如果網頁
這個例子中只有四個網頁,如果當前在
初試時,假設上網者在每一個網頁的概率都是相等的,即
注意矩陣
2.2 終止點問題
上述上網者的行爲是一個馬爾科夫過程的實例,要滿足收斂性,需要具備一個條件:
- 圖是強連通的,即從任意網頁可以到達其他任意網頁
互聯網上的網頁不滿足強連通的特性,因爲有一些網頁不指向任何網頁,如果按照上面的計算,上網者到達這樣的網頁後便走投無路、四顧茫然,導致前面累計得到的轉移概率被清零,這樣下去,最終的得到的概率分佈向量所有元素幾乎都爲
對應的轉移矩陣爲:
連續迭代下去,最終所有元素都爲
2.3 陷阱問題
另外一個問題就是陷阱問題,即有些網頁不存在指向其他網頁的鏈接,但存在指向自己的鏈接。比如下面這個圖:
上網者跑到
不斷的迭代下去,就變成了這樣:
2.4 解決終止點問題和陷阱問題
上面過程,我們忽略了一個問題,那就是上網者是一個悠閒的上網者,而不是一個愚蠢的上網者,我們的上網者是聰明而悠閒,他悠閒,漫無目的,總是隨機的選擇網頁,他聰明在走到一個終結網頁或者一個陷阱網頁(比如兩個示例中的
現在我們來計算前文2.3節中帶陷阱的網頁圖的概率分佈:
重複迭代下去,得到: