機器學習：PageRank算法--Scala實現

1. PageRank算法概述

PageRank,即網頁排名，又稱網頁級別、Google左側排名或佩奇排名。

是Google創始人拉里·佩奇和謝爾蓋·布林於1997年構建早期的搜索系統原型時提出的鏈接分析算法，自從Google在商業上獲得空前的成功後，該算法也成爲其他搜索引擎和學術界十分關注的計算模型。目前很多重要的鏈接分析算法都是在PageRank算法基礎上衍生出來的。PageRank是Google用於用來標識網頁的等級/重要性的一種方法，是Google用來衡量一個網站的好壞的唯一標準。在揉合了諸如Title標識和Keywords標識等所有其它因素之後，Google通過PageRank來調整結果，使那些更具“等級/重要性”的網頁在搜索結果中另網站排名獲得提升，從而提高搜索結果的相關性和質量。其級別從0到10級，10級爲滿分。PR值越高說明該網頁越受歡迎（越重要）。例如：一個PR值爲1的網站表明這個網站不太具有流行度，而PR值爲7到10則表明這個網站非常受歡迎（或者說極其重要）。一般PR值達到4，就算是一個不錯的網站了。Google把自己的網站的PR值定到10，這說明Google這個網站是非常受歡迎的，也可以說這個網站非常重要。

2. 從入鏈數量到 PageRank

        在PageRank提出之前，已經有研究者提出利用網頁的入鏈數量來進行鏈接分析計算，這種入鏈方法假設一個網頁的入鏈越多，則該網頁越重要。早期的很多搜索引擎也採納了入鏈數量作爲鏈接分析方法，對於搜索引擎效果提升也有較明顯的效果。 PageRank除了考慮到入鏈數量的影響，還參考了網頁質量因素，兩者相結合獲得了更好的網頁重要性評價標準。
對於某個互聯網網頁A來說，該網頁PageRank的計算基於以下兩個基本假設：
     數量假設：在Web圖模型中，如果一個頁面節點接收到的其他網頁指向的入鏈數量越多，那麼這個頁面越重要。
     質量假設：指向頁面A的入鏈質量不同，質量高的頁面會通過鏈接向其他頁面傳遞更多的權重。所以越是質量高的頁面指向頁面A，則頁面A越重要。
       利用以上兩個假設，PageRank算法剛開始賦予每個網頁相同的重要性得分，通過迭代遞歸計算來更新每個頁面節點的PageRank得分，直到得分穩定爲止。 PageRank計算得出的結果是網頁的重要性評價，這和用戶輸入的查詢是沒有任何關係的，即算法是主題無關的。假設有一個搜索引擎，其相似度計算函數不考慮內容相似因素，完全採用PageRank來進行排序，那麼這個搜索引擎的表現是什麼樣子的呢？這個搜索引擎對於任意不同的查詢請求，返回的結果都是相同的，即返回PageRank值最高的頁面。

3. PageRank算法原理

PageRank的計算充分利用了兩個假設：數量假設和質量假設。步驟如下：
1）在初始階段：網頁通過鏈接關係構建起Web圖，每個頁面設置相同的PageRank值，通過若干輪的計算，會得到每個頁面所獲得的最終PageRank值。隨着每一輪的計算進行，網頁當前的PageRank值會不斷得到更新。

2）在一輪中更新頁面PageRank得分的計算方法：在一輪更新頁面PageRank得分的計算中，每個頁面將其當前的PageRank值平均分配到本頁面包含的出鏈上，這樣每個鏈接即獲得了相應的權值。而每個頁面將所有指向本頁面的入鏈所傳入的權值求和，即可得到新的PageRank得分。當每個頁面都獲得了更新後的PageRank值，就完成了一輪PageRank計算。

3.2 基本思想：

如果網頁T存在一個指向網頁A的連接，則表明T的所有者認爲A比較重要，從而把T的一部分重要性得分賦予A。這個重要性得分值爲：PR（T）/L(T)

　其中PR（T）爲T的PageRank值，L(T)爲T的出鏈數

則A的PageRank值爲一系列類似於T的頁面重要性得分值的累加。

即一個頁面的得票數由所有鏈向它的頁面的重要性來決定，到一個頁面的超鏈接相當於對該頁投一票。一個頁面的PageRank是由所有鏈向它的頁面（鏈入頁面）的重要性經過遞歸算法得到的。一個有較多鏈入的頁面會有較高的等級，相反如果一個頁面沒有任何鏈入頁面，那麼它沒有等級。

3.3 PageRank簡單計算：

假設一個由只有4個頁面組成的集合：A，B，C和D。如果所有頁面都鏈向A，那麼A的PR（PageRank）值將是B，C及D的和。

繼續假設B也有鏈接到C，並且D也有鏈接到包括A的3個頁面。一個頁面不能投票2次。所以B給每個頁面半票。以同樣的邏輯，D投出的票只有三分之一算到了A的PageRank上。

換句話說，根據鏈出總數平分一個頁面的PR值。

例子：

如圖1 所示的例子來說明PageRank的具體計算過程。

3.4 修正PageRank計算公式：

由於存在一些出鏈爲0，也就是那些不鏈接任何其他網頁的網，也稱爲孤立網頁，使得很多網頁能被訪問到。因此需要對 PageRank公式進行修正，即在簡單公式的基礎上增加了阻尼係數（damping factor）q， q一般取值q=0.85。

其意義是，在任意時刻，用戶到達某頁面後並繼續向後瀏覽的概率。 1- q= 0.15就是用戶停止點擊，隨機跳到新URL的概率）的算法被用到了所有頁面上，估算頁面可能被上網者放入書籤的概率。

最後，即所有這些被換算爲一個百分比再乘上一個係數q。由於下面的算法，沒有頁面的PageRank會是0。所以，Google通過數學系統給了每個頁面一個最小值。

這個公式就是.S Brin 和 L. Page 在《The Anatomy of a Large- scale Hypertextual Web Search Engine Computer Networks and ISDN Systems 》定義的公式。

所以一個頁面的PageRank是由其他頁面的PageRank計算得到。Google不斷的重複計算每個頁面的PageRank。如果給每個頁面一個隨機PageRank值（非0），那麼經過不斷的重複計算，這些頁面的PR值會趨向於正常和穩定。這就是搜索引擎使用它的原因。

/*
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *    http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

package pagerank

import org.apache.spark.SparkContext._
import org.apache.spark.{SparkConf, SparkContext}

/**
 * Computes the PageRank of URLs from an input file. Input file should
 * be in format of:
 * URL         neighbor URL
 * URL         neighbor URL
 * URL         neighbor URL
 * ...
 * where URL and their neighbors are separated by space(s).
 */
object SparkPageRank {
  def main(args: Array[String]) {
    //    if (args.length < 1) {
    //      System.err.println("Usage: SparkPageRank <file> <iter>")
    //      System.exit(1)
    //    }
    val sparkConf = new SparkConf().setAppName("PageRank").setMaster("local")
    val iters = 1;
    //    val iters = if (args.length > 0) args(1).toInt else 10
    val ctx = new SparkContext(sparkConf)
    val lines = ctx.textFile("page.txt", 1)

    //根據邊關係數據生成 鄰接表 如：(1,(2,3,4,5)) (2,(1,5))..
    val links = lines.map{ s =>
      val parts = s.split("\\s+")
      (parts(0), parts(1))
    }.distinct().groupByKey().cache()

//    links.foreach(println)

    // (1,1.0) (2,1.0)..
    var ranks = links.mapValues(v => 1.0)

    //ranks.foreach(println)

    for (i <- 1 to iters) {
      // (1,((2,3,4,5), 1.0))
      val contribs = links.join(ranks).values.flatMap{ case (urls, rank) =>
        val size = urls.size
        urls.map(url => (url, rank / size))
      }
      ranks = contribs.reduceByKey(_ + _).mapValues(0.15 + 0.85 * _)
      ranks.foreach(println)
    }

    val output = ranks.collect()
    output.foreach(tup => println(tup._1 + " has rank: " + tup._2 + "."))

    ctx.stop()
  }
}