概率檢索模型

概率檢索模型是當前信息檢索領域效果最好的模型之一，它基於對已有反饋結果的分析，根據貝葉斯原理爲當前查詢排序。

我在之前的博客樸素貝葉斯分類中介紹瞭如何用樸素貝葉斯算法對數據進行分類，其實概率檢索模型的基本原理與樸素貝葉斯分類是一樣的。先回憶一下樸素貝葉斯算法的原理：對於測試元組 $X$ ，最終目的是要計算對於不同的類 $C_{i}$ ，計算後驗概率 $p (C_{i} | X)$ ，哪個類最大，就屬於哪個類。而爲了計算 $p (C_{i} | X)$ ，則需要用貝葉斯公式做如下分解：

\begin{matrix} (10) & p (C_{i} | X) = \frac{p (X | C_{i}) p (C_{i})}{p (X)} \end{matrix}

因爲要比較大小，所以忽略 $p (X)$ ，只需要考慮分子中的 $p (X | C_{i}) p (C_{i})$ ，其中 $p (C_{i})$ 可以通過抽樣得到，那麼問題轉化爲計算 $p (X | C_{i})$ ， $p (X | C_{i})$ 代表 $X$ 在類 $C_{i}$ 中的概率。如果 $X$ 由 $n$ 個相互之間無關的屬性組成，那麼這個概率一般如下計算：

\begin{matrix} (11) & p (X | C_{i}) = \prod_{j = 1}^{n} p (X_{j} | C_{i}) \end{matrix}

其中 $X_{j}$ 爲測試元組的第 $j$ 個屬性值，如果屬性是離散屬性，那麼 $p (X_{j} | C_{i}) = \frac{| X_{j} |}{| C_{i} |}$ ，其中 $\frac{| X_{j} |}{| C_{i} |}$ 表示類 $C_{i}$ 的數據元組中擁有屬性 $X_{j}$ 的概率。如果屬性是連續屬性呢，你自己看上面那篇博文，我這裏不說了。之所以說離散時的情況，是因爲本文後面要用。以上就是樸素貝葉斯分類法的原理，我大概複述一遍，方便理解後面要說的東西。

1. 基本思想

概率檢索模型與貝葉斯分類的思想非常接近，但還是有本質區別的。概率檢索模型的根本目的不是分類，它不需要根據查詢判斷一個文檔屬於“相關”或者“不相關”，而是計算這個文檔屬於屬於“相關”或者“不相關”的概率大小爲文檔排序。我將概率檢索模型要解決的問題刻畫如下。

問題模型：現在對於一個查詢 $q$ ，已知文檔集中哪些與 $q$ 是相關的（這類文檔的類標號記爲 $C_{1}$ ），哪些與 $q$ 是不相關的（這類文檔的類標號記爲 $C_{0}$ ）。概率檢索模型的核心是對於每一個文檔 $X$ 計算公式(1)，公式(1)計算出的 $α$ 代表了文檔 $X$ 屬於“相關”類的概率與屬於“不相關”類的概率的比值（也叫“優勢比”）。顯然，這個比值越大，代表該文檔與查詢的相關度越大，因此我們就把 $α$ 看做是相關度得分，最後通過 $α$ 將文檔排序。

\begin{matrix} (1) & α = \frac{p (C_{1} | X)}{p (C_{0} | X)} = \frac{p (X | C_{1}) p (C_{1})}{p (X | C_{0}) p (C_{0})} \end{matrix}

其中， $p (C_{1} | X)$ 和 $p (C_{0} | X)$ 的計算過程如下：

\begin{matrix} (12) & \begin{aligned} p (C_{1} | X) = \frac{p (X | C_{1}) p (C_{1})}{p (X)} \\ p (C_{0} | X) = \frac{p (X | C_{0}) p (C_{0})}{p (X)} \end{aligned} \end{matrix}

2. 推導過程

現在看看具體怎樣計算公式(1)。首先， $p (C_{1})$ 和 $p (C_{0})$ 其實對於所有的文檔來說都是一樣的，因爲最終的目的是比較大小，所以我們忽略掉。 $α$ 的計算可以簡寫成如下形式：

\begin{matrix} (2) & α = \frac{p (X | C_{1})}{p (X | C_{0})} \end{matrix}

接下來計算 $p (X | C_{i})$ 的方法就跟樸素貝葉斯中那個連乘的公式是一樣的了，但是有一點不同，用樸素貝葉斯做數據分類的時候，一般默認所有數據元組的屬性值都是存在的，而到了信息檢索這就不一樣了，我們知道文檔由詞項組成，而某一個詞項可能在某一個文檔中，也可能不在。

所以我們不妨記單詞 $w_{j}$ 在類 $C_{i}$ 中隨機選擇的一篇文檔中出現的概率爲 $p (w_{j} | C_{i})$ ；那麼單詞 $w_{j}$ 不在類 $C_{i}$ 中隨機選擇的一篇文檔中出現的概率就是 $1 - p (w_{j} | C_{i})$ ，那麼記爲 $p (\bar{w_{j}} | C_{i})$ 好了。

現在就可以將 $α$ 的計算公式寫成如下形式：

\begin{matrix} (13) & α = \frac{\prod_{w_{j} \in X} p (w_{j} | C_{1}) \prod_{w_{j} \notin X} p (\bar{w_{j}} | C_{1})}{\prod_{w_{j} \in X} p (w_{j} | C_{0}) \prod_{w_{j} \notin X} p (\bar{w_{j}} | C_{0})} \end{matrix}

爲了方便推導，將 $p (w_{j} | C_{1})$ 記爲 $p_{j}$ ，將 $p (w_{j} | C_{0})$ 記爲 $s_{j}$ ，則 $α$ 可以表示成下面的公式(3)：

\begin{matrix} (3) & α = \frac{\prod_{w_{j} \in X} p_{j} \prod_{w_{j} \notin X} 1 - p_{j}}{\prod_{w_{j} \in X} s_{j} \prod_{w_{j} \notin X} 1 - s_{j}} \end{matrix}

直接看公式(3)可能有點抽象，我舉個例子嘗試說明一下，假如文檔集的詞典爲 ${w_{1}, w_{2}, w_{3}, w_{4}}$ ，文檔1擁有的詞項爲 ${w_{1}, w_{3}}$ ，那麼文檔1的 $α$ 值可以如下計算：

\begin{matrix} (14) & α = \frac{p_{1} p_{3} \cdot (1 - p_{2}) (1 - p_{4})}{s_{1} s_{3} \cdot (1 - s_{2}) (1 - s_{4})} \end{matrix}

現在，對公式(3)做一個數學上的等價變換，如下：

\begin{matrix} (4) & \begin{aligned} α & = \frac{\prod_{w_{j} \in X} p_{j} \prod_{w_{j} \notin X} 1 - p_{j}}{\prod_{w_{j} \in X} s_{j} \prod_{w_{j} \notin X} 1 - s_{j}} = \frac{\prod_{w_{j} \in X} p_{j}}{\prod_{w_{j} \in X} s_{j}} \cdot \frac{\prod_{w_{j} \notin X} 1 - p_{j}}{\prod_{w_{j} \notin X} 1 - s_{j}} \\ = (\frac{\prod_{w_{j} \in X} p_{j}}{\prod_{w_{j} \in X} s_{j}} \cdot \frac{\prod_{w_{j} \in X} 1 - s_{j}}{\prod_{w_{j} \in X} 1 - p_{j}}) \cdot (\frac{\prod_{w_{j} \in X} 1 - p_{j}}{\prod_{w_{j} \in X} 1 - s_{j}} \frac{\prod_{w_{j} \notin X} 1 - p_{j}}{\prod_{w_{j} \notin X} 1 - s_{j}}) \\ = \frac{\prod_{w_{j} \in X} p_{j} (1 - s_{j})}{\prod_{w_{j} \in X} s_{j} (1 - p_{j})} \cdot \frac{\prod 1 - p_{j}}{\prod 1 - s_{j}} \end{aligned} \end{matrix}

其中 $p_{j}$ 和 $s_{j}$ 對於任意文檔來說都一樣，所以公式(4)的第二部分可以忽略，這也是我上面經過這麼複雜的公式計算的原因，就是要將文檔排序的比較依據化簡成

\begin{matrix} (15) & α = \frac{\prod_{w_{j} \in X} p_{j} (1 - s_{j})}{\prod_{w_{j} \in X} s_{j} (1 - p_{j})} \end{matrix}

用 $\log$ 函數進一步處理，得到：

\begin{matrix} (5) & \sum_{j = 1}^{n} \log \frac{p_{j}}{1 - p_{j}} + \log \frac{1 - s_{j}}{s_{j}} \end{matrix}

也就是說，現在只要能計算出 $p_{j}$ 和 $s_{j}$ 就成功了。在計算之前，我們先寫出下面的索引項出現列聯表：

	$相关文档数$	$不相关文档数$	$总文档数$
包含 $w_{j}$ 的文檔	$r_{j}$	$n_{j} - r_{j}$	$n_{j}$
不包含 $w_{j}$ 的文檔	$\| C_{1} \| - r_{j}$	$N - n_{j} - \| C_{1} \| + r_{j}$	$N - n_{j}$
所有文檔	$\| C_{1} \|$	$\| C_{0} \|$	N

根據這個表可以得到以下計算公式：

\begin{matrix} (16) & \begin{aligned} p_{j} = \frac{r_{j}}{| C_{1} |} \\ s_{j} = \frac{n_{j} - r_{j}}{| C_{0} |} \end{aligned} \end{matrix}

因爲在公式(5)中，我們用 $\log$ 函數進行了處理，所以我們在 $p_{j}$ 和 $s_{j}$ 的計算公式中分子加0.5，分母加1，做平滑計算：

\begin{matrix} (17) & \begin{aligned} p_{j} = \frac{r_{j} + 0.5}{| C_{1} | + 1} \\ s_{j} = \frac{n_{j} - r_{j} + 0.5}{| C_{0} | + 1} \end{aligned} \end{matrix}

把上面的結果代入公式(5)，得到：

\begin{matrix} (6) & \sum_{j = 1}^{n} \log \frac{(r_{j} + 0.5) (| C_{0} | - n_{j} + r_{j} + 0.5)}{(| C_{1} | - r_{j} + 0.5) (n_{j} - r_{j} + 0.5)} \end{matrix}

這個公式(6)也叫做Robertson-Sparck Jones等式。

3. 無類別估值的解決方案

Robertson-Sparck Jones等式的計算條件是知道 $| C_{1} |$ ，但是如果不知道呢？實際上，大多時候我們是不知道的。一種可行的方案是，初始時令 $| C_{1} | = 0$ ，則公式(6)化簡爲：

\begin{matrix} (7) & \sum_{j = 1}^{n} \log \frac{N - n_{j} + 0.5}{n_{j} + 0.5} \end{matrix}

可以看到，公式(7)裏面有一個IDF的成分，但是既沒有TF成分，也沒有文檔長度歸一化的處理過程。這些問題導致上面所說的概率檢索模型並不實用。後來的BM25模型解決了這些問題，成爲了商業搜索系統中非常成功的案例。

4. BM25模型

我們知道，在向量空間模型的經典權重算法 $T F - I D F$ 中，好的索引權重模型應該考慮三方面的內容：（1）詞頻；（2）逆文檔頻率；（3）文檔長度。而上面由概率檢索模型推導出的公式(6)顯然只是包含了逆文檔頻率的因素，而未考慮詞頻和文檔長度。實驗結果也證明Robertson-Sparck Jones等式直接應用的效果並不好。所以學者們考慮在Robertson-Sparck Jones等式中加入代表詞頻和文檔長度的因子，重新計算文檔排序。這就是經典的BM25模型。

BM25模型爲文檔 $D_{i}$ 每個索引項 $t_{j}$ 分配了一個係數 $B_{i, j}$ ，由公式(8)計算生成：

\begin{matrix} (8) & B_{i, j} = \frac{(K_{1} + 1) f_{i, j}}{K_{1} [(1 - b) + b \frac{l e n (D_{i})}{a v g_d o c l e n}] + f_{i, j}} \end{matrix}

其中， $K_{1}$ 和 $b$ 爲經驗參數，用於調節詞頻和文檔長度在權重計算中起到的作用，一般來講， $K_{1}$ 取1， $b$ 取0.75已經被證明是合理的假設。而 $f_{i, j}$ 則爲詞 $w_{j}$ 在文檔 $D_{i}$ 中的詞頻， $a v g_d o c l e n$ 爲平均文檔長度。

計算得到了係數 $B_{i, j}$ ，就可以基於Robertson-Sparck Jones等式最終計算出文檔關於查詢的排序：

\begin{matrix} (18) & s i m (D_{j}, q) = \sum_{t_{j} \in q} B_{i, j} \times \log \frac{(r_{j} + 0.5) (| C_{0} | - n_{j} + r_{j} + 0.5)}{(| C_{1} | - r_{j} + 0.5) (n_{j} - r_{j} + 0.5)} \end{matrix}

如果不知道哪些文檔是相關的，那麼根據公式(7)，還可以簡化上式：

\begin{matrix} (9) & s i m (D_{j}, q) = \sum_{t_{i} \in q} B_{i, j} \times \log \frac{N - n_{j} + 0.5}{n_{j} + 0.5} \end{matrix}

這個公式(9)，就是BM25模型最爲經典的計算公式。

概率檢索模型

1. 基本思想

2. 推導過程

3. 無類別估值的解決方案

4. BM25模型

12款高效開源Wiki系統推薦，打造團隊知識管理利器

常用的 Git 指令

sm4加密工具類

Trie樹的構建和應用

lintcode - Reach a Number

SVM解釋：四、線性不可分的情況

矩陣的分解：滿秩分解和奇異值分解

概率檢索模型

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結