給定查詢的網頁綜合排名

原創

longjing1113

2020-02-25 02:16

給定查詢，有關網頁的綜合排名=網頁排名（PageRank）*相關性（TF-IDF）

網頁質量

對於一個特定的查詢，搜索結果的排名取決於兩組信息，關於網頁的質量和這個查詢與每個網頁的相關性信息。

PageRank算法--衡量網頁質量

簡單說，民主表決。

一個網頁被很多其他網頁鏈接，它的認可度高，可靠性高，計算排名時，需要給予較大的權重。

二維矩陣相乘的問題，用迭代方法解決。

Bi=A*Bi-1

B爲一維向量，bi標識第n個網頁的排名

A爲矩陣，amn表示第m個網頁指向第n個網頁的鏈接數。

網頁排名對於零概率或小概率事件需要進行平滑處理。

利用稀疏矩陣計算技巧簡化計算量——>發明了Mapreduce並行計算工具。

http://hi.baidu.com/mshltkiygobbrtq/item/772ac099020562f42916479e

Google 不斷的重複計算每個頁面的 PageRank。如果您給每個頁面一個隨機 PageRank 值（非0），那麼經過不斷的重複計算，這些頁面的 PR 值會趨向於正常和穩定。這就是搜索引擎使用它的原因。

這個方程式引入了隨機瀏覽的概念，即有人上網無聊隨機打開一些頁面，點一些鏈接。一個頁面的PageRank值也影響了它被隨機瀏覽的概率。爲了便於理解，這裏假設上網者不斷點網頁上的鏈接，最終到了一個沒有任何鏈出頁面的網頁，這時候上網者會隨機到另外的網頁開始瀏覽。

爲了對那些有鏈出的頁面公平，q = 0.15(q的意義見上文)的算法被用到了所有頁面上, 估算頁面可能被上網者放入書籤的概率。

所以，這個等式如下:

${\rm PageRank}(p_i) = \frac{q}{N} + (1 -q) \sum_{p_j} \frac{{\rm PageRank} (p_j)}{L(p_j)}$

p₁,p₂,…,p_N是被研究的頁面，M(p_i)是鏈入p_i頁面的數量，L(p_j)是p_j鏈出頁面的數量，而N是所有頁面的數量。

PageRank值是一個特殊矩陣中的特徵向量。這個特徵向量爲

$\mathbf{R} = \begin{bmatrix} {\rm PageRank}(p_1) \\ {\rm PageRank}(p_2) \\ \vdots \\ {\rm PageRank}(p_N) \end{bmatrix}$

R是等式的答案

$\mathbf{R} = \begin{bmatrix} {q / N} \\ {q / N} \\ \vdots \\ {q / N} \end{bmatrix} + (1-q) \begin{bmatrix} \ell(p_1,p_1) & \ell(p_1,p_2) & \cdots & \ell(p_1,p_N) \\ \ell(p_2,p_1) & \ddots & & \\ \vdots & & \ell(p_i,p_j) & \\ \ell(p_N,p_1) & & & \ell(p_N,p_N) \end{bmatrix} \mathbf{R}$

如果p_j不鏈向p_i, 而且對每個j都成立時， $\ell(p_i,p_j)$ 等於 0

$\sum_{i = 1}^N \ell(p_i,p_j) = 1,$

這項技術主要的弊端是，舊的頁面等級會比新頁面高，因爲新頁面，即使是非常好的頁面，也不會有很多鏈接，除非他是一個站點的子站點。

這就是 PageRank 需要多項算法結合的原因。PageRank 似乎傾向於維基百科頁面，在條目名稱的搜索結果中總在大多數或者其他所有頁面之前。原因主要是維基百科內相互的鏈接很多，並且有很多站點鏈入。

Google 經常處罰惡意提高 PageRank 的行爲。Google 究竟怎樣區分正常的鏈接交換和不正常的鏈接堆積仍然是商業機密。

代碼參考如下：

http://blog.csdn.net/midgard/article/details/7061721

確定網頁和查詢的相關性

搜索關鍵詞權重的科學度量TF-IDF

單文本詞頻（Term Frequency），關鍵詞次數除以網頁總字數。

查詢和網頁相關性：TF1+TF2……+TFn （n個關鍵詞），缺陷如下：

1、除去停止詞（對確定網頁主題沒有用處）：的和是……

2、關鍵詞權重：一個詞預測主題能力強，權重大。

一個關鍵詞在很少的網頁中出現，則容易鎖定，權重應該大。

逆文本頻率指數（Inverse Document Frequency， IDF）： log(D / Dw)

D 爲全部網頁數，Dw爲關鍵詞出現的網頁數。

改進後公式：

TF1*IDF1+TF2*IDF2+……+TFn*IDFn

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

給定查詢的網頁綜合排名

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

perl進程終止函數die/warn/exit/kill

搜索引擎反作弊

機器學習——監督學習，半監督學習，無監督學習，主動學習

表達式求值——棧的應用

給定查詢的網頁綜合排名

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結