web搜索學習筆記之概率模型

1. 爲什麼概率模型?

直觀上,一個IR系統不可能給出一個確定的答覆:一個文檔是否滿足一個查詢? 就算是人類,也不能給出這樣確定的回答。因此,需要進行不確定性地判斷。而概率理論正是進行不確定性推理的理論。

概率方法既是最古老的信息獲取方法之一,也是當前最熱門的信息獲取方法之一。


2. 跟別的模型的比較

  • 2.1 布爾模型
布爾模型不支持對文檔集合的排序。
  • 2.2 向量空間模型
向量空間模型基於文檔與查詢的相似度,進行排序。而相似度並不是相關度。最相似的文檔可能高度相關,也可能完全無關(?)。而概率模型是對相關程度的更清晰的定義。


3. 需要使用的概率論基礎


4. 基於概率的文檔排序原理

4.1 基於概率的相關程度公式及其推導過程

公式(4)表示文檔x與查詢q相關的概率,其中x和q都是建立在term上的向量。

公式(5)表示文檔x與查詢q不相關的概率。

公式(6)組合公式(4)和公式(5),用來計算文檔x與查詢q的相關程度。

公式(7)是公式(6)中隨文檔x變化的部分,公式(6)中的其餘部分,對於給定一個查詢q來說,都是常量。

公式(8)基於公式(7),給出最終用來計算文檔x與查詢q相關程度的公式。


4.2 計算公式(8)


其中,


發佈了41 篇原創文章 · 獲贊 8 · 訪問量 17萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章