Lucene Scoring Algorithm -- Lucene 分數 計算 算法

Lucene Scoring結合使用信息檢索的向量空間模型和布爾模型來決定一個文檔對於用戶輸入查詢的相關性。

Vector Space Model(向量空間模型)Information Retrieval(信息檢索) Boolean Model(buer模型)

VSM(Vector Space Model)的主要思想:

VSM是一個將文本文檔(任意對象)作爲標示符向量來表現的一種代數模型。

每個詞條與一個維度一致,如果一個詞條在向量中出現,那麼它在向量中的值就爲非零值。計算這些值有很多種方式,熟知的是(term)weights,最知名的是tf-idf weighting。term的定義取決於應用,一般term指單獨的詞語,單建字或長句子。

查詢詞條在一個文檔中出現的次數相對於其他文檔更多,此文檔對於查詢詞條相關度越高。首先使用Boolean模型縮小需要計算分數的文檔範圍,核心基於VSM系統。

Lucene Scoring 會使用如下幾條規則:

tf-idf模型

tf:Term Frequency(詞條頻度)

idf:Inverse Document Frequency。詞條在所有Document中越稀缺,它對分數貢獻越高。

coord:Coordination Factor。Document出現的查詢詞條越多,它的分數越高。

field norm:Field Length。域長度越大,分數越低。

See You.....


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章