索引的建立、更新策略

 

一、索引的建立分爲三種方式:

1.兩遍文檔倒排法

第一遍文檔掃描時完成一些全局信息統計,如文檔集合的數量、每個文檔的單詞數量、詞頻等

第二遍文檔掃描的主要任務是填補每個單詞的倒排列表,完全在內存中進行

2.排序倒排法

步驟爲:

排序文檔ID賦值、單詞ID賦值、更新詞典、統計詞頻、構建三元組、三元組排序、寫中間結果文件、合併中間結果文件。

3.歸併倒排法

 

二、索引更新

1.完全重建策略

2.再合併策略

3.原地更新策略

4.混合策略

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章