1. 爲什麼概率模型?
直觀上,一個IR系統不可能給出一個確定的答覆:一個文檔是否滿足一個查詢? 就算是人類,也不能給出這樣確定的回答。因此,需要進行不確定性地判斷。而概率理論正是進行不確定性推理的理論。
概率方法既是最古老的信息獲取方法之一,也是當前最熱門的信息獲取方法之一。
2. 跟別的模型的比較
- 2.1 布爾模型
- 2.2 向量空間模型
3. 需要使用的概率論基礎
4. 基於概率的文檔排序原理
4.1 基於概率的相關程度公式及其推導過程
公式(4)表示文檔x與查詢q相關的概率,其中x和q都是建立在term上的向量。
公式(5)表示文檔x與查詢q不相關的概率。
公式(6)組合公式(4)和公式(5),用來計算文檔x與查詢q的相關程度。
公式(7)是公式(6)中隨文檔x變化的部分,公式(6)中的其餘部分,對於給定一個查詢q來說,都是常量。
公式(8)基於公式(7),給出最終用來計算文檔x與查詢q相關程度的公式。
4.2 計算公式(8)
其中,